論文の概要: Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale
- arxiv url: http://arxiv.org/abs/2010.13588v1
- Date: Mon, 26 Oct 2020 13:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 18:56:10.147722
- Title: Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale
- Title(参考訳): 言語生成評価指標の奇妙な事例--注意物語
- Authors: Ozan Caglayan, Pranava Madhyastha, Lucia Specia
- Abstract要約: イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
- 参考スコア(独自算出の注目度): 52.663117551150954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation of language generation systems is a well-studied problem
in Natural Language Processing. While novel metrics are proposed every year, a
few popular metrics remain as the de facto metrics to evaluate tasks such as
image captioning and machine translation, despite their known limitations. This
is partly due to ease of use, and partly because researchers expect to see them
and know how to interpret them. In this paper, we urge the community for more
careful consideration of how they automatically evaluate their models by
demonstrating important failure cases on multiple datasets, language pairs and
tasks. Our experiments show that metrics (i) usually prefer system outputs to
human-authored texts, (ii) can be insensitive to correct translations of rare
words, (iii) can yield surprisingly high scores when given a single sentence as
system output for the entire test set.
- Abstract(参考訳): 言語生成システムの自動評価は自然言語処理においてよく研究されている問題である。
毎年新しいメトリクスが提案されているが、既知の制限にもかかわらず、イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的なメトリクスが残っている。
これは使いやすさと、研究者がそれを見て解釈する方法を知りたがっているためでもある。
本稿では,複数のデータセット,言語ペア,タスクに対して重要な障害事例を示すことによって,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
私たちの実験では
(i)通常は人文よりもシステム出力を好む。
(ii)は、まれな単語の正しい翻訳に敏感である。
(iii) テストセット全体のシステム出力として単一文が与えられると驚くほど高いスコアが得られる。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - DISCERN: Decoding Systematic Errors in Natural Language for Text Classifiers [18.279429202248632]
本稿では,テキスト分類器における系統的バイアスを言語説明を用いて解釈するフレームワークであるdisCERNを紹介する。
DISCERNは、2つの大きな言語モデル間の対話ループを用いて、体系的エラーの正確な自然言語記述を反復的に生成する。
本研究では, クラスタを例に挙げるよりも, 言語説明を通して, 系統的バイアスをより効果的に(25%以上相対的に) 効率的に解釈できることを示す。
論文 参考訳(メタデータ) (2024-10-29T17:04:55Z) - What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations [0.0]
本稿では,OpenAI Whisper,MetaのMMS,Seamless,アセンブリAIのConformerなど,主要なASRモデルのテキスト正規化ルーチンについて検討する。
我々の研究は、現在のテキスト正規化の実践が、公正な比較のためにASR出力を標準化することを目的としている一方で、Indicスクリプトに適用した場合、根本的な欠陥があることを明らかにする。
本稿では,言語学の専門知識を生かしたテキスト正規化ルーチン開発へのシフトを提案する。
論文 参考訳(メタデータ) (2024-09-04T05:08:23Z) - Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。
さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文 参考訳(メタデータ) (2023-05-23T19:38:28Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - GRUEN for Evaluating Linguistic Quality of Generated Text [17.234442722611803]
本稿では、文法性、非冗長性、focU、生成したテキストの構造とコヒーレンスを評価するためのGRUENを提案する。
GRUENはBERTベースのモデルと構文的、意味的、文脈的特徴のクラスを使用してシステム出力を調べる。
論文 参考訳(メタデータ) (2020-10-06T05:59:25Z) - The Impact of Indirect Machine Translation on Sentiment Classification [6.719549885077474]
本稿では,顧客からのフィードバックを他の言語に翻訳する機械翻訳システムを提案する。
直接翻訳が必ずしも可能であるとは限らないため、翻訳された文に対する自動分類器の性能について検討する。
提案する感情分類システムの性能を解析し、翻訳文の分類の利点と欠点について考察する。
論文 参考訳(メタデータ) (2020-08-25T20:30:21Z) - How to Probe Sentence Embeddings in Low-Resource Languages: On
Structural Design Choices for Probing Task Evaluation [82.96358326053115]
構造設計選択に対する探索作業結果の感度について検討する。
我々は、英語で識別する「安定な領域」にある設計選択を多言語で構成した埋め込みを探索する。
私たちは英語の結果が他の言語に移行しないことに気付きます。
論文 参考訳(メタデータ) (2020-06-16T12:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。