論文の概要: On Measuring Context Utilization in Document-Level MT Systems
- arxiv url: http://arxiv.org/abs/2402.01404v1
- Date: Fri, 2 Feb 2024 13:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:15:46.065002
- Title: On Measuring Context Utilization in Document-Level MT Systems
- Title(参考訳): 文書レベルMTシステムにおける文脈利用の測定について
- Authors: Wafaa Mohammed, Vlad Niculae
- Abstract要約: 本稿では,文脈利用の尺度を用いて,精度に基づく評価を補完することを提案する。
自動アノテート支援コンテキストは人間のアノテートコンテキストに類似した結論を与えることを示す。
- 参考スコア(独自算出の注目度): 12.02023514105999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document-level translation models are usually evaluated using general metrics
such as BLEU, which are not informative about the benefits of context. Current
work on context-aware evaluation, such as contrastive methods, only measure
translation accuracy on words that need context for disambiguation. Such
measures cannot reveal whether the translation model uses the correct
supporting context. We propose to complement accuracy-based evaluation with
measures of context utilization. We find that perturbation-based analysis
(comparing models' performance when provided with correct versus random
context) is an effective measure of overall context utilization. For a
finer-grained phenomenon-specific evaluation, we propose to measure how much
the supporting context contributes to handling context-dependent discourse
phenomena. We show that automatically-annotated supporting context gives
similar conclusions to human-annotated context and can be used as alternative
for cases where human annotations are not available. Finally, we highlight the
importance of using discourse-rich datasets when assessing context utilization.
- Abstract(参考訳): 文書レベルの翻訳モデルは一般にBLEUのような一般的なメトリクスを用いて評価される。
コントラスト法などの文脈認識評価に関する現在の研究は、曖昧性を必要とする単語についてのみ翻訳精度を測定する。
このような尺度は、翻訳モデルが正しいサポートコンテキストを使用するかどうかを明らかにすることはできない。
文脈利用の尺度を用いて精度に基づく評価を補完する。
摂動に基づく分析(正しい場合とランダムな場合のモデルの性能を比較する)がコンテキスト全体の利用の効果的な尺度であることがわかった。
よりきめ細かな現象特異的評価を行うため,支援文脈が文脈依存の談話現象にどの程度寄与するかを測定する。
自動アノテーション付きサポートコンテキストは、人間アノテーション付きコンテキストと同じような結論を与え、人間のアノテーションが利用できない場合の代替として使用できることを示す。
最後に,文脈利用を評価する際に,談話に富んだデータセットを使うことの重要性を強調する。
関連論文リスト
- Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics [22.041561519672456]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成している。
本稿では,3段階のサポートレベル間での引用を識別する上で,メトリクスの有効性を評価するための比較評価フレームワークを提案する。
以上の結果から,全ての評価において一貫した指標が得られず,きめ細かな支援評価の複雑さが明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T15:57:24Z) - Fine-grained Controllable Text Generation through In-context Learning with Feedback [57.396980277089135]
本稿では,依存度などの非自明な言語的特徴の特定の値に一致させるために,入力文を書き換える手法を提案する。
従来の研究とは対照的に、本手法は微調整ではなく文脈内学習を用いており、データが少ないユースケースに適用できる。
論文 参考訳(メタデータ) (2024-06-17T08:55:48Z) - Quantifying the Plausibility of Context Reliance in Neural Machine
Translation [25.29330352252055]
我々は、PECoRe(Context Reliance)の可塑性評価を導入する。
PECoReは、言語モデル世代におけるコンテキスト使用量の定量化を目的として設計されたエンドツーエンドの解釈可能性フレームワークである。
我々は、文脈対応機械翻訳モデルの妥当性を定量化するために、pecoreを使用します。
論文 参考訳(メタデータ) (2023-10-02T13:26:43Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - Context vs Target Word: Quantifying Biases in Lexical Semantic Datasets [18.754562380068815]
BERTのような最先端のコンテキスト化モデルは、WiCやWSDのようなタスクを使用して、ワード・イン・コンテクストの表現を評価する。
本研究は,主要な文脈的語彙意味タスクにおいて,文脈-単語間相互作用を検証した最初の定量的分析(探索ベースラインを用いた)を提案する。
論文 参考訳(メタデータ) (2021-12-13T15:37:05Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Measuring and Increasing Context Usage in Context-Aware Machine
Translation [64.5726087590283]
機械翻訳モデルによるコンテキストの使用を定量的にするために、新しいメトリクス、条件付き相互情報を導入します。
次に,コンテキスト認識モデルによってコンテキストの使用量を増やすために,コンテキスト認識ワードドロップアウトという,新しい簡易なトレーニング手法を導入する。
論文 参考訳(メタデータ) (2021-05-07T19:55:35Z) - On the Use of Context for Predicting Citation Worthiness of Sentences in
Scholarly Articles [10.28696219236292]
この問題を階層的BiLSTMモデルを用いて解いたシーケンスラベリングタスクとして定式化する。
我々は200万以上の文とそのラベルを含む新しいベンチマークデータセットをコントリビュートする。
本研究は,引用価値のための文脈埋め込みと文脈埋め込みの利点を定量化する。
論文 参考訳(メタデータ) (2021-04-18T21:47:30Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z) - Don't Judge an Object by Its Context: Learning to Overcome Contextual
Bias [113.44471186752018]
既存のモデルは、認識精度を向上させるために、オブジェクトとそのコンテキスト間の共起を利用することが多い。
この研究は、学習した特徴表現の堅牢性を改善するために、そのような文脈バイアスに対処することに焦点を当てている。
論文 参考訳(メタデータ) (2020-01-09T18:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。