論文の概要: Anatomy of an Idiom: Tracing Non-Compositionality in Language Models
- arxiv url: http://arxiv.org/abs/2511.16467v1
- Date: Thu, 20 Nov 2025 15:35:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.697132
- Title: Anatomy of an Idiom: Tracing Non-Compositionality in Language Models
- Title(参考訳): 慣用句の解剖:言語モデルにおける非合成性の追跡
- Authors: Andrew Gomes,
- Abstract要約: イディオム処理は異なる計算パターンを示す。
我々は、異なるイディオム間で頻繁に活性化されるイディオムヘッドのアテンションヘッドを特定し、調査する。
これらの知見はトランスフォーマーが非構成言語をどのように扱うかについての洞察を与える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the processing of idiomatic expressions in transformer-based language models using a novel set of techniques for circuit discovery and analysis. First discovering circuits via a modified path patching algorithm, we find that idiom processing exhibits distinct computational patterns. We identify and investigate ``Idiom Heads,'' attention heads that frequently activate across different idioms, as well as enhanced attention between idiom tokens due to earlier processing, which we term ``augmented reception.'' We analyze these phenomena and the general features of the discovered circuits as mechanisms by which transformers balance computational efficiency and robustness. Finally, these findings provide insights into how transformers handle non-compositional language and suggest pathways for understanding the processing of more complex grammatical constructions.
- Abstract(参考訳): 本稿では,回路探索と解析のための新しい手法を用いて,変圧器を用いた言語モデルにおける慣用表現の処理について検討する。
修正パスパッチアルゴリズムを用いて回路を初めて発見すると、イディオム処理は異なる計算パターンを示す。
我々は,異なるイディオム間で頻繁に活性化される「イディオムヘッド」のアテンションヘッドを特定し,調査するとともに,前処理によるイディオムトークン間のアテンションを高めた。
計算効率とロバスト性を両立させる機構として,これらの現象と発見回路の一般的な特徴を解析する。
最後に、これらの発見はトランスフォーマーが非合成言語をどのように扱うかについての洞察を与え、より複雑な文法構成の処理を理解するための経路を提案する。
関連論文リスト
- Unlocking Out-of-Distribution Generalization in Transformers via Recursive Latent Space Reasoning [50.99796659680724]
本研究では,GSM8Kスタイルのモジュラー演算をテストベッドとして用いたTransformerネットワークにおけるアウト・オブ・ディストリビューション(OOD)の一般化について検討する。
我々は,OOD一般化の強化を目的とした4つのアーキテクチャ機構のセットを紹介し,検討する。
我々はこれらの実験結果を詳細な機械論的解釈可能性分析で補完し、これらのメカニズムがOOD一般化能力をいかに高めるかを明らかにする。
論文 参考訳(メタデータ) (2025-10-15T21:03:59Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Models [9.56229382432426]
本研究の目的は、トランスフォーマーモデルをアルゴリズム機能を実装する人間可読表現にリバースエンジニアリングすることである。
GPT-2 SmallとLlama-2-7Bの両方のキーサブ回路を回路解釈可能性解析により同定する。
このサブ回路は、インターバル回路、スペイン語の数字と月数継続、自然言語の単語問題など、様々な数学的なプロンプトに影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2023-11-07T16:58:51Z) - Mapping of attention mechanisms to a generalized Potts model [50.91742043564049]
ニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
また、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。