論文の概要: Fine-Grained Analysis of Shared Syntactic Mechanisms in Language Models
- arxiv url: http://arxiv.org/abs/2604.22166v1
- Date: Fri, 24 Apr 2026 02:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.31307
- Title: Fine-Grained Analysis of Shared Syntactic Mechanisms in Language Models
- Title(参考訳): 言語モデルにおける共有構文機構の微粒化解析
- Authors: Ryoma Kumon, Hitomi Yanaka,
- Abstract要約: 本研究は, 因果的解釈可能性法を粒度レベルで適用することにより, 異なる構文構造に共通するニューラル機構を応用できるかどうかを考察する。
以上の結果から, 初期層と中層に位置するフィラーギャップ依存性に対して, 高度に局所化され共有される機構が明らかとなった。
活性化パッチによって同定されたこれらのメカニズムは、分散アライメント探索(英語版)において、狭義の言語分布に過度に適合する可能性があるのに対して、分散アライメント探索(英語版)が一般化されることが判明した。
- 参考スコア(独自算出の注目度): 19.641608225642248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While language models demonstrate sophisticated syntactic capabilities, the extent to which their internal mechanisms align with cross-constructional principles studied in linguistics remains poorly understood. This study investigates whether models employ shared neural mechanisms across different syntactic constructions by applying causal interpretability methods at a granular level. Focusing on filler-gap dependencies and negative polarity item (NPI) licensing, we utilize activation patching to identify the functional roles of specific attention heads and MLP blocks. Our results reveal a highly localized and shared mechanism for filler-gap dependencies located in the early to middle layers, whereas NPI processing exhibits no such unified mechanism. Furthermore, we find that these mechanisms identified by activation patching generalize to out-of-distribution, while distributed alignment search, a supervised interpretability method, is susceptible to overfitting on narrow linguistic distributions. Finally, we validate our findings by demonstrating that the manipulation of the identified components improves model performance on acceptability judgment benchmarks.
- Abstract(参考訳): 言語モデルは高度な構文的能力を示すが、その内部メカニズムが言語学で研究されているクロスコンストラクショナルな原理とどのように一致しているかは理解されていない。
本研究は, 因果的解釈可能性法を粒度レベルで適用することにより, 異なる構文構造に共通するニューラル機構をモデルに適用するか否かを考察する。
そこで我々は, アクティベーションパッチを用いて, 特定のアテンションヘッドやMLPブロックの機能的役割を識別する。
以上の結果から,NPI処理はそのような統一機構を示さないが,初期層と中層に位置するフィラーギャップ依存性の高度に局在化と共有化のメカニズムが明らかとなった。
さらに,アクティベーションパッチによって同定されたこれらのメカニズムは,分散アライメント探索法である分散アライメント検索において,狭義の言語分布に過度に適合する可能性が示唆された。
最後に、同定されたコンポーネントの操作により、アクセプタビリティ判定ベンチマークにおけるモデル性能が向上することを示した。
関連論文リスト
- Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models [77.98801218316505]
大型言語モデル(LLM)は、人間のような推論を示唆する創発的な行動を示す。
テキスト内概念推論におけるLLMの内部処理について検討する。
論文 参考訳(メタデータ) (2026-02-08T03:14:39Z) - DIML: Differentiable Inverse Mechanism Learning from Behaviors of Multi-Agent Learning Trajectories [7.764532811300023]
本研究では,未知のインセンティブ生成機構を,観測された戦略的相互作用トレースから回復する逆メカニズム学習について検討する。
逆ゲーム理論やマルチエージェント逆強化学習とは異なり、ターゲットは非構造化メカニズムを含む。
本稿では,多エージェント学習のモデルを用いて,確率に基づくフレームワークであるDIMLを提案する。
論文 参考訳(メタデータ) (2026-01-25T03:49:25Z) - State-Dependent Refusal and Learned Incapacity in RLHF-Aligned Language Models [0.0]
本稿では,長期的相互作用における政策関連行動選択性監査のためのケーススタディ手法を提案する。
1つの86ターンの対話セッションでは、同じモデルが広範で非感度なドメインで通常性能(NP)を示し、プロバイダやポリシーに敏感なドメインで繰り返し機能的拒絶(FR)を生成する。
我々は,3つの反応系 (NP, FR, Meta-Narrative; MN) を運用し,MNロール・フレーミング・ナラティブが同一の文脈での拒絶と共起する傾向があることを示す。
論文 参考訳(メタデータ) (2025-12-15T14:00:15Z) - Do We Really Need GNNs with Explicit Structural Modeling? MLPs Suffice for Language Model Representations [50.45261187796993]
グラフニューラルネットワーク(GNN)は構造情報を十分に活用できないが、MLP(Multi-Layer Perceptrons)は構造認識タスクにおいて驚くべき能力を示す。
本稿では,情報理論の観点から総合的な探索フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-26T18:10:28Z) - Mechanisms vs. Outcomes: Probing for Syntax Fails to Explain Performance on Targeted Syntactic Evaluations [31.54093034816165]
大規模言語モデル(LLM)は、テキストの処理と生成において、構文の堅牢な熟達を示す。
モデルの探索精度が下流の構文的性能を確実に予測するかどうかについては、網羅的な研究はまだ確定していない。
論文 参考訳(メタデータ) (2025-06-20T01:46:50Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。
我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-05T17:45:42Z) - Reasoning Circuits in Language Models: A Mechanistic Interpretation of Syllogistic Inference [13.59675117792588]
言語モデル(LM)に関する最近の研究は、体系的な推論原理を学べるかという議論を巻き起こしている。
本稿では,シロメトリクス推論の機械論的解釈について述べる。
論文 参考訳(メタデータ) (2024-08-16T07:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。