論文の概要: Is Inference Mediated by Distinct Semantic Structures in LLMs? A Mechanistic Interpretation
- arxiv url: http://arxiv.org/abs/2605.25520v1
- Date: Mon, 25 May 2026 07:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.440033
- Title: Is Inference Mediated by Distinct Semantic Structures in LLMs? A Mechanistic Interpretation
- Title(参考訳): LLMにおける固有意味構造による推論は媒介されるか? : 機械論的解釈
- Authors: Nura Aljaafari, Marco Valentino, André Freitas,
- Abstract要約: トランスフォーマー表現はラベルレベルの情報を運ぶことが知られているが、それらのラベルを生成するセマンティック操作をエンコードしているかどうかは不明である。
一つの意味変換によって異なる制御された前提-仮説ペアを用いて、自然言語推論においてこれを考察する。
- 参考スコア(独自算出の注目度): 34.50304918655722
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Predicting a label correctly does not necessarily require representing the operation that produces it. Transformer representations are known to carry label-level information, but whether they encode semantic operations producing those labels is unclear. We investigate this in Natural Language Inference using controlled premise-hypothesis pairs that differ by a single semantic transformation. Using layer-wise activations, we estimate operation-level subspaces via SVD and test their causal relevance through activation steering in four open-weight decoder models. Transformation effects are decodable with $84.8$-$99\%$ accuracy and occupy partially distinct but overlapping subspaces, exceeding random-subspace baselines. Steering experiments show that these directions causally influence predictions, though steerability varies across models; cross-operation steering further reveals structured interference and a dissociation between subspace selectivity and cross-operation independence. These findings indicate that the models encode not only that a hypothesis relates to a premise but also, in part, how it does so, implying that mechanistic analysis and control should operate at the level of semantic operations rather than predicted labels alone.
- Abstract(参考訳): ラベルを正しく予測するには、そのラベルを生成する操作を必ずしも表現する必要があるとは限らない。
トランスフォーマー表現はラベルレベルの情報を運ぶことが知られているが、それらのラベルを生成するセマンティック操作をエンコードしているかどうかは不明である。
一つの意味変換によって異なる制御された前提-仮説ペアを用いて、自然言語推論においてこれを考察する。
4つのオープンウェイトデコーダモデルにおいて,レイヤワイドアクティベーションを用いてSVDを介して操作レベルサブスペースを推定し,アクティベーションステアリングによる因果関係を検証した。
変換効果は$84.8$-$99\%の精度でデオード可能であり、部分的に異なるが重複する部分空間を占有し、ランダムな部分空間のベースラインを超える。
ステアリング実験は、これらの方向が予測に因果的に影響を与えることを示したが、ステアビリティはモデルによって異なる。
これらの結果は、仮説が前提に関係しているだけでなく、その方法も符号化していることを示唆し、機械的解析と制御は、予測されたラベルのみではなく、意味的な操作のレベルで動作すべきであることを示唆している。
関連論文リスト
- Geometry-Adaptive Explainer for Faithful Dictionary-Based Interpretability under Distribution Shift [17.611062308867275]
分布シフトは、モデルが積極的に使用する部分空間を回転させ、イン・ディストリビューション(ID)アクティベーションに基づいて訓練された説明者の辞書を誤ることを示す。
我々は,このミスアライメントを,ID辞書とOOD活性部分空間との間の幾何学的距離である忠実度ギャップとして定式化する。
提案するGeometry-Adaptive Explainer (GAE, Geometry-Adaptive Explainer) は,従来の特徴構造を保ちながら,OOD-active 部分空間で説明者の辞書を実現する。
論文 参考訳(メタデータ) (2026-05-21T00:46:01Z) - Accurate and Efficient Statistical Testing for Word Semantic Breadth [0.0]
分散に基づく統計は、文脈的多様性のプロキシとして機能する。
そこで本研究では,方向の相違から相違点を分離するために,世帯適応型変質試験を提案する。
本手法は, 真の広帯域差に対する感度を保ちながら, Type-I誤差を32.5%削減する。
論文 参考訳(メタデータ) (2026-05-08T17:38:36Z) - Dissociating Decodability and Causal Use in Bracket-Sequence Transformers [1.8962029954096566]
私たちは、深度、距離、およびトップ・オブ・スタックの信号はすべてデオード可能であるが、それらの因果的役割はばらばらになっていることに気付きます。
テンプレート付き自然言語設定に拡張された結果から、制御された設定であっても、デオーダビリティだけでは因果的使用を含まないことが示唆されている。
論文 参考訳(メタデータ) (2026-04-24T00:26:34Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Adapting to Latent Subgroup Shifts via Concepts and Proxies [82.01141290360562]
最適ターゲット予測器は、ソースドメインでのみ利用できる概念とプロキシ変数の助けを借りて、非パラメトリックに識別可能であることを示す。
本研究では,データ生成プロセスに特有の潜在変数モデルを提案する。
論文 参考訳(メタデータ) (2022-12-21T18:30:22Z) - Confident Sinkhorn Allocation for Pseudo-Labeling [40.883130133661304]
半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。
本稿では,疑似ラベル作成における不確実性の役割を理論的に研究し,CSA(Confident Sinkhorn Allocation)を提案する。
CSAは、信頼度の高いサンプルのみへの最適な輸送を通して、最高の擬似ラベル割り当てを特定する。
論文 参考訳(メタデータ) (2022-06-13T02:16:26Z) - Neuro-Symbolic Entropy Regularization [78.16196949641079]
構造化予測では、目的は構造化されたオブジェクトをエンコードする多くの出力変数を共同で予測することである。
エントロピー正則化(Entropy regularization)という1つのアプローチは、決定境界が低確率領域にあるべきであることを示唆している。
我々は、モデルが有効対象を確実に予測することを奨励する損失、ニューロシンボリックエントロピー正規化を提案する。
論文 参考訳(メタデータ) (2022-01-25T06:23:10Z) - Self-training Avoids Using Spurious Features Under Domain Shift [54.794607791641745]
教師なし領域適応においては、条件付きエントロピー最小化と擬似ラベル処理は、既存の理論で解析されたものよりもドメインシフトがはるかに大きい場合であっても行われる。
ドメインシフトが大きくなる可能性のある特定の設定を特定・分析するが、特定のスパイラルな特徴はソースドメインのラベルと相関するが、ターゲットの独立なラベルである。
論文 参考訳(メタデータ) (2020-06-17T17:51:42Z) - Rectifying Pseudo Label Learning via Uncertainty Estimation for Domain
Adaptive Semantic Segmentation [49.295165476818866]
本稿では、意味的セグメンテーションの文脈において、ソースドメインからターゲットドメインへの知識伝達の教師なし領域適応に焦点を当てる。
既存のアプローチでは、通常、擬似ラベルを未ラベルのターゲットドメインデータを完全に活用するための基礎的真理とみなす。
本稿では,擬似ラベル学習の修正のために,学習中の予測の不確かさを明示的に推定することを提案する。
論文 参考訳(メタデータ) (2020-03-08T12:37:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。