論文の概要: Analyzing the Attention Heads for Pronoun Disambiguation in Context-aware Machine Translation Models
- arxiv url: http://arxiv.org/abs/2412.11187v1
- Date: Sun, 15 Dec 2024 13:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:46.628516
- Title: Analyzing the Attention Heads for Pronoun Disambiguation in Context-aware Machine Translation Models
- Title(参考訳): 文脈認識機械翻訳モデルにおける意味曖昧化のための注意ヘッドの解析
- Authors: Paweł Mąka, Yusuf Can Semerci, Jan Scholtes, Gerasimos Spanakis,
- Abstract要約: 代名詞不明瞭化のための文脈認識機械翻訳モデルにおけるアテンションヘッドの役割について検討する。
モデルにより特定の頭部が不使用であることが示され、より強い関係の1つに頭だけが参加すれば、モデル性能が向上する可能性が示唆された。
- 参考スコア(独自算出の注目度): 5.312303275762104
- License:
- Abstract: In this paper, we investigate the role of attention heads in Context-aware Machine Translation models for pronoun disambiguation in the English-to-German and English-to-French language directions. We analyze their influence by both observing and modifying the attention scores corresponding to the plausible relations that could impact a pronoun prediction. Our findings reveal that while some heads do attend the relations of interest, not all of them influence the models' ability to disambiguate pronouns. We show that certain heads are underutilized by the models, suggesting that model performance could be improved if only the heads would attend one of the relations more strongly. Furthermore, we fine-tune the most promising heads and observe the increase in pronoun disambiguation accuracy of up to 5 percentage points which demonstrates that the improvements in performance can be solidified into the models' parameters.
- Abstract(参考訳): 本稿では、英語・ドイツ語・英語・フランス語の発音不明瞭化のための文脈対応機械翻訳モデルにおける注目ヘッドの役割について検討する。
代名詞予測に影響を及ぼす可能性のある妥当な関係に対応する注意点を観察・修正することで,それらの影響を分析する。
研究結果によると、一部の頭は関心関係に沿うが、これらすべてが代名詞を曖昧に表現する能力に影響を及ぼすわけではない。
モデルにより特定の頭部が不使用であることが示され、より強い関係の1つに頭だけが参加すれば、モデル性能が向上する可能性が示唆された。
さらに、最も有望な頭部を微調整し、最大5ポイントの発音不明瞭度の増加を観察することで、性能改善がモデルのパラメータに固化できることを示す。
関連論文リスト
- Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Reasoning Elicitation in Language Models via Counterfactual Feedback [17.908819732623716]
事実と反事実の質問において精度のバランスをとる新しい指標を導出する。
本稿では,より優れた推論機構を実現するための微調整手法を提案する。
各種現実シナリオにおける微調整言語モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-10-02T15:33:30Z) - Examining the Causal Effect of First Names on Language Models: The Case
of Social Commonsense Reasoning [2.013330800976407]
ファーストネームは、社会デミノグラフィー表現のプロキシとして機能する。
モデルが与えられた入力に対する推論が、提供された最初の名前に基づいて異なるかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-01T20:05:05Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Accounting for Agreement Phenomena in Sentence Comprehension with
Transformer Language Models: Effects of Similarity-based Interference on
Surprisal and Attention [4.103438743479001]
主語動詞と反射代名詞一致処理における類似性に基づく干渉効果の説明を進めます。
動詞または反射代名詞の超越性は、非文法文における促進的干渉効果を予測する。
論文 参考訳(メタデータ) (2021-04-26T20:46:54Z) - Probing for Bridging Inference in Transformer Language Models [15.216901057561428]
私達は最初にBERTの個々の注意の頭部を調査し、より高い層の注意の頭部が橋渡しの関係に顕著な焦点を合わせることを観察します。
我々は,anaphora分解能をマスキングトークン予測タスクとして定式化するアプローチにおいて,言語モデル全体を考察する。
提案手法は,事前学習された言語モデルがブリッジング推論を実質的に捉えていることを示す。
論文 参考訳(メタデータ) (2021-04-19T15:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。