論文の概要: A Benchmark for Evaluating Machine Translation Metrics on Dialects
Without Standard Orthography
- arxiv url: http://arxiv.org/abs/2311.16865v1
- Date: Tue, 28 Nov 2023 15:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 17:50:47.289193
- Title: A Benchmark for Evaluating Machine Translation Metrics on Dialects
Without Standard Orthography
- Title(参考訳): 標準オーソグラフィーのない辞書における機械翻訳基準の評価ベンチマーク
- Authors: No\"emi Aepli, Chantal Amrhein, Florian Schottmann, Rico Sennrich
- Abstract要約: 非標準方言の指標がいかに堅牢かを評価する。
我々は、英語から2つのスイスドイツ語方言への自動機械翻訳のための、人間の翻訳と人間の判断のデータセットを収集する。
- 参考スコア(独自算出の注目度): 40.04973667048665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For sensible progress in natural language processing, it is important that we
are aware of the limitations of the evaluation metrics we use. In this work, we
evaluate how robust metrics are to non-standardized dialects, i.e. spelling
differences in language varieties that do not have a standard orthography. To
investigate this, we collect a dataset of human translations and human
judgments for automatic machine translations from English to two Swiss German
dialects. We further create a challenge set for dialect variation and benchmark
existing metrics' performances. Our results show that existing metrics cannot
reliably evaluate Swiss German text generation outputs, especially on segment
level. We propose initial design adaptations that increase robustness in the
face of non-standardized dialects, although there remains much room for further
improvement. The dataset, code, and models are available here:
https://github.com/textshuttle/dialect_eval
- Abstract(参考訳): 自然言語処理における合理的な進歩のためには、私たちが使用している評価指標の限界を認識しておくことが重要である。
本研究では,非標準化方言,すなわち標準正書法を持たない言語品種の綴りの違いに対するロバストな指標について評価する。
そこで本研究では,英語から2つのスイスドイツ語方言への自動機械翻訳のための,人間の翻訳と人間の判断のデータセットを収集する。
さらに,方言変化のための課題セットを作成し,既存の指標のパフォーマンスをベンチマークする。
以上の結果から,既存の指標では特にセグメントレベルで,スイスドイツ語のテキスト生成出力を確実に評価できないことがわかった。
非標準方言に面した頑健性を高める初期設計適応を提案するが、さらなる改善の余地は残されている。
データセット、コード、モデルはここで入手できる。 https://github.com/textshuttle/dialect_eval
関連論文リスト
- DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - Dialect-robust Evaluation of Generated Text [40.85375247260744]
NLG評価指標の目標として,方言の頑健性と方言認識を定式化する。
このスイートを現在の最先端のメトリクスに適用すると、それらが方言ロバストではないことが示される。
論文 参考訳(メタデータ) (2022-11-02T07:12:23Z) - SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German [22.30271453485001]
我々は8つの主要な方言にまたがるスイス系ドイツ語の最初の注釈付き並列コーパスと標準ドイツ語の参照を紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
論文 参考訳(メタデータ) (2021-03-21T14:00:09Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。