論文の概要: Start Making Sense(s): A Developmental Probe of Attention Specialization Using Lexical Ambiguity
- arxiv url: http://arxiv.org/abs/2511.21974v1
- Date: Wed, 26 Nov 2025 23:16:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.32601
- Title: Start Making Sense(s): A Developmental Probe of Attention Specialization Using Lexical Ambiguity
- Title(参考訳): 意味の創出(s) : 語彙的曖昧さを用いた注意特化の発達的プローブ
- Authors: Pamela D. Rivière, Sean Trott,
- Abstract要約: 注意機構を体系的に探索するパイプラインを提案する。
単語のあいまいさに注意を払っている頭と、全体的なあいまいさのパフォーマンスを識別する。
対象の頭部を非難することは、明らかに曖昧なパフォーマンスを損なう。
- 参考スコア(独自算出の注目度): 3.795745240553126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite an in-principle understanding of self-attention matrix operations in Transformer language models (LMs), it remains unclear precisely how these operations map onto interpretable computations or functions--and how or when individual attention heads develop specialized attention patterns. Here, we present a pipeline to systematically probe attention mechanisms, and we illustrate its value by leveraging lexical ambiguity--where a single word has multiple meanings--to isolate attention mechanisms that contribute to word sense disambiguation. We take a "developmental" approach: first, using publicly available Pythia LM checkpoints, we identify inflection points in disambiguation performance for each LM in the suite; in 14M and 410M, we identify heads whose attention to disambiguating words covaries with overall disambiguation performance across development. We then stress-test the robustness of these heads to stimulus perturbations: in 14M, we find limited robustness, but in 410M, we identify multiple heads with surprisingly generalizable behavior. Then, in a causal analysis, we find that ablating the target heads demonstrably impairs disambiguation performance, particularly in 14M. We additionally reproduce developmental analyses of 14M across all of its random seeds. Together, these results suggest: that disambiguation benefits from a constellation of mechanisms, some of which (especially in 14M) are highly sensitive to the position and part-of-speech of the disambiguating cue; and that larger models (410M) may contain heads with more robust disambiguation behavior. They also join a growing body of work that highlights the value of adopting a developmental perspective when probing LM mechanisms.
- Abstract(参考訳): トランスフォーマー言語モデル(LM)における自己注意行列操作の基本的な理解にもかかわらず、これらの操作が解釈可能な計算や関数にどのようにマッピングされるのかは明確になっていない。また、個別の注意が特別な注意パターンをどう生み出すのか、あるいは、どのようにして個別の注意が特別な注意パターンを発達させるのか。この記事では、単語の曖昧さに寄与する複数の意味を持つ単語を活用することで、その価値を体系的に探究するパイプラインを提示する。
まず、公開可能なPythia LMチェックポイントを用いて、スイート内のLMごとに不明瞭な点を識別し、14Mと410Mでは、開発全体における不明瞭な点と単語コビアの曖昧さに注意を向けるヘッドを識別する。
刺激摂動に対するこれらの頭部の頑丈さをストレステストし、14Mでは限られた頑丈さを見出すが、410Mでは驚くほど一般化可能な振る舞いを持つ複数の頭部を識別する。
そして、因果解析において、特に14Mでは、標的頭部の非難が明らかに曖昧さを損なうことが判明した。
また,すべてのランダム種子の14Mの発達解析を再現した。
これらの結果は、曖昧さは機構の集合から得られる利点であり、そのいくつか(特に14Mでは)は曖昧さのあるキューの位置と部分に非常に敏感であり、より大きなモデル(410M)はより頑健な曖昧さを持つ頭部を含む可能性があることを示唆している。
さらに彼らは,LMメカニズムを探索する上で,開発視点を採用することの価値を強調した,成長する作業組織にも参加しています。
関連論文リスト
- Toward a Theory of Generalizability in LLM Mechanistic Interpretability Research [3.1304584228602685]
機械的主張が一般化する5つの対応軸を提案する。
Pythiaモデルのランダムシードの事前学習における「ワンバックアテンションヘッド」の分析を行った。
論文 参考訳(メタデータ) (2025-09-26T18:38:16Z) - Identifying and Evaluating Inactive Heads in Pretrained LLMs [74.93559410792646]
本研究では,頭部の不活性度を計測する13のスコア関数の分類法を提案する。
平均して12%以上の注意頭は活動せず、特定の文脈で改善することができる。
スコア分布を測定することで、注意行動に対する洞察が得られることを示す。
論文 参考訳(メタデータ) (2025-04-04T19:28:23Z) - Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning [0.0]
言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。
本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T16:30:26Z) - ExpLLM: Towards Chain of Thought for Facial Expression Recognition [61.49849866937758]
本研究では,表情認識のための思考の正確な連鎖(CoT)を生成するExpLLMという新しい手法を提案する。
具体的には、重要な観察、全体的な感情解釈、結論の3つの観点から、CoTメカニズムを設計しました。
RAF-DBとAffectNetデータセットの実験では、ExpLLMは現在の最先端のFERメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-09-04T15:50:16Z) - Interpreting Key Mechanisms of Factual Recall in Transformer-Based Language Models [68.83330172211315]
本研究では,トランスフォーマーベース言語モデル(LLM)を用いて,現実的なリコール処理を行うメカニズムについて検討する。
出力の出力を人間の理解するコンポーネントに分解することを目的とした,新しい分析手法を提案する。
我々は、事実的リコールの信頼性を高めるために、私たちの解釈を活用することで、この抑制を緩和する。
論文 参考訳(メタデータ) (2024-03-28T15:54:59Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - Attention Can Reflect Syntactic Structure (If You Let It) [13.018623665953488]
18言語にまたがる多言語BERTのデコード実験について紹介する。
一つの注意ヘッドからフルツリーをベースライン精度以上のデコードできることを示す。
明示的な言語構造を学習する目的を操る際、我々は、結果として生じる注意パターンに表される同じ構造の多くを見いだす。
論文 参考訳(メタデータ) (2021-01-26T16:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。