論文の概要: Advancing Explainability in Neural Machine Translation: Analytical Metrics for Attention and Alignment Consistency
- arxiv url: http://arxiv.org/abs/2412.18669v1
- Date: Tue, 24 Dec 2024 20:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:05.807391
- Title: Advancing Explainability in Neural Machine Translation: Analytical Metrics for Attention and Alignment Consistency
- Title(参考訳): ニューラルネットワーク翻訳における説明可能性の向上:注意とアライメント整合性の分析指標
- Authors: Anurag Mishra,
- Abstract要約: NMTモデル注意パターンの定量的な説明可能性を評価するための体系的枠組みを提案する。
We present a set of metrics attention entropy and alignment agreement and whether it on a English-German test subset from WMT14。
本結果より, より鋭い注意分布は解釈可能性の向上と相関するが, 翻訳品質の向上は必ずしも保証されないことがわかった。
- 参考スコア(独自算出の注目度): 2.4022340214033915
- License:
- Abstract: Neural Machine Translation (NMT) models have shown remarkable performance but remain largely opaque in their decision making processes. The interpretability of these models, especially their internal attention mechanisms, is critical for building trust and verifying that these systems behave as intended. In this work, we introduce a systematic framework to quantitatively evaluate the explainability of an NMT model attention patterns by comparing them against statistical alignments and correlating them with standard machine translation quality metrics. We present a set of metrics attention entropy and alignment agreement and validate them on an English-German test subset from WMT14 using a pre trained mT5 model. Our results indicate that sharper attention distributions correlate with improved interpretability but do not always guarantee better translation quality. These findings advance our understanding of NMT explainability and guide future efforts toward building more transparent and reliable machine translation systems.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)モデルは目覚ましい性能を示しているが、意思決定プロセスにおいてほとんど不透明である。
これらのモデルの解釈可能性、特に内部の注意機構は、信頼の構築と、これらのシステムが意図したように振る舞うことの検証に不可欠である。
本研究では,NMTモデルアテンションパターンを統計的アライメントと比較し,標準的な機械翻訳品質指標と相関させることにより,NMTモデルアテンションパターンの説明可能性を定量的に評価する手法を提案する。
本稿では,事前訓練したmT5モデルを用いて,WMT14の英語-ドイツ語テストサブセット上で,メトリクス注意エントロピーとアライメントアライメントアグメントアグリーメントアグリーメントのセットを提示する。
本結果より, より鋭い注意分布は解釈可能性の向上と相関するが, 翻訳品質の向上は必ずしも保証されないことがわかった。
これらの知見はNMTの説明可能性の理解を深め、より透明で信頼性の高い機械翻訳システムの構築に向けた今後の取り組みを導くものである。
関連論文リスト
- Visualizing Uncertainty in Translation Tasks: An Evaluation of LLM Performance and Confidence Metrics [0.20971479389679337]
大規模言語モデル(LLM)は機械翻訳にますます利用されているが、その予測は解釈可能性やユーザ信頼を妨げる不確実性を示すことが多い。
本稿では,(1)モデルの信頼性に関するトークンレベルの洞察をユーザに提供すること,(2)翻訳の不確かさを定量化し表現するためのWebベースの可視化ツールを開発すること,の2つの目的に対処する。
論文 参考訳(メタデータ) (2025-01-26T17:14:51Z) - Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Understanding and Mitigating the Uncertainty in Zero-Shot Translation [92.25357943169601]
ゼロショット翻訳の不確実性の観点から、オフターゲット問題を理解し、緩和することを目的としている。
そこで本研究では,モデルトレーニングのためのトレーニングデータを認知するための,軽量かつ補完的な2つのアプローチを提案する。
提案手法は,強いMNMTベースライン上でのゼロショット翻訳の性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-20T10:29:46Z) - Supervised Visual Attention for Simultaneous Multimodal Machine
Translation [47.18251159303909]
本稿では,トランスフォーマーを用いた最初の同時機械翻訳(MMT)アーキテクチャを提案する。
我々は、ラベル付きフレーズ領域アライメントを用いて視覚的注意機構を誘導する補助的な監視信号を用いて、このモデルを拡張する。
その結果,教師付き視覚的注意はMTモデルの翻訳品質を常に向上させることがわかった。
論文 参考訳(メタデータ) (2022-01-23T17:25:57Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - PheMT: A Phenomenon-wise Dataset for Machine Translation Robustness on
User-Generated Contents [40.25277134147149]
日本語翻訳における特定の言語現象に対するMTシステムの堅牢性を評価するための新しいデータセットであるPheMTを提案する。
作成したデータセットを用いて行った実験では、社内モデルだけでなく、市販のシステムでも、特定の現象の存在によって大きく混乱していることが明らかになりました。
論文 参考訳(メタデータ) (2020-11-04T04:44:47Z) - On the Inference Calibration of Neural Machine Translation [54.48932804996506]
校正と翻訳性能と誤校正の言語特性の相関について検討した。
そこで本研究では,推論キャリブレーションと翻訳性能を両立できる新しいラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:03:56Z) - Can Your Context-Aware MT System Pass the DiP Benchmark Tests? :
Evaluation Benchmarks for Discourse Phenomena in Machine Translation [7.993547048820065]
本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。
驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
論文 参考訳(メタデータ) (2020-04-30T07:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。