論文の概要: Expert-Aware Causal Tracing of Factual Recall in Sparse MoE Language Models
- arxiv url: http://arxiv.org/abs/2606.03780v1
- Date: Tue, 02 Jun 2026 15:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.108223
- Title: Expert-Aware Causal Tracing of Factual Recall in Sparse MoE Language Models
- Title(参考訳): スパースMoE言語モデルにおけるファクチュアルリコールのエキスパート対応因果追跡
- Authors: Yuetian Lu, Ali Modarressi, Yihong Liu, Hinrich Schütze,
- Abstract要約: ファクトリコールの因果トレースは、主に高密度トランスフォーマー言語モデルで研究されている。
スパースMoE言語モデルのための専門家対応因果トレースを定式化する。
- 参考スコア(独自算出の注目度): 48.37640356111552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal tracing of factual recall has been studied predominantly in dense transformer language models, where interventions localize information flow to layers or feed-forward modules. Sparse mixture-of-experts (MoE) language models introduce a sharper question: when a factual prediction is mediated by a routed MoE block, which routed expert contributions matter? We formulate expert-aware causal tracing for sparse MoE language models. Using CounterFact facts, we first corrupt the model's factual preference by adding noise to subject-token embeddings, and then test whether clean MoE-block outputs or clean expert-level updates restore the true-vs-foil logit contrast. For Qwen3-30B-A3B-Base, a layer sweep selects and validates layer 44, and expert-level tracing identifies L44E069 as an expert repeatedly selected in the clean run whose held-out patch outperforms other active same-layer expert patches. For Mixtral-8x7B-v0.1, layer-level tracing validates a mid-layer signal, but the signal is not localized to the selected singleton expert; a coalition check instead recovers it with routed multi-expert updates. These results suggest that MoE factual tracing can be made expert-aware, while also showing that expert-level localization is model- and protocol-dependent rather than universal.
- Abstract(参考訳): ファクトリコールの因果トレースは、情報フローを層やフィードフォワードモジュールにローカライズする高密度トランスフォーマー言語モデルで主に研究されている。
スパース・ミックス・オブ・エキスパート(MoE)言語モデルでは、実際の予測がルーティングされたMoEブロックによって媒介される場合、専門家によるコントリビューションが重要かという、よりシャープな疑問が提起されている。
スパースMoE言語モデルのための専門家対応因果トレースを定式化する。
CounterFact 事実を用いて、まず、主観的な埋め込みにノイズを加えることによって、モデルの現実的嗜好を損なう。
Qwen3−30B−A3B−Baseでは、レイヤスイープが層44を選択して検証し、専門家レベルのトレースは、保持パッチが他のアクティブな同層エキスパートパッチを上回っているクリーンランにおいて繰り返し選択された専門家としてL44E069を識別する。
Mixtral-8x7B-v0.1では、層レベルのトレースによって中間層信号が検証されるが、信号は選択されたシングルトン専門家にローカライズされない。
これらの結果は,専門家レベルのローカライゼーションは普遍的ではなく,モデルとプロトコルに依存していることを示している。
関連論文リスト
- Evaluating using Mock Tool Calls to Quarantine Untrusted Prompt Inputs [4.566221130579806]
大規模言語モデルは、他のモデルからの回答を判断するなど、信頼できない入力を処理する必要がある。
現在のLLM仕様では、OpenAIのような主要なプロバイダが、インストラクション階層に沿って信頼性を区別している。
自然な緩和の可能性として、信頼できないコンテンツをモックツールコールで隔離としてラップすることが挙げられる。
私たちの仮説に反して、ツールラッピングはロバスト性を大きく改善しない。
論文 参考訳(メタデータ) (2026-05-28T19:57:28Z) - Towards Localized and Disentangled Knowledge Editing for Multimodal Large Language Models [12.330598426331091]
局所的および遠方的知識編集は、ファクト固有のモデル層をローカライズし、無関係なものからターゲット関連インプットを無関係にすることで、正確で一般化された編集を実現する。
LDKEは、高い局所性を維持しながら、関連するコンテキストに編集を伝達する際の優れた性能を実証する。
論文 参考訳(メタデータ) (2026-05-28T12:06:39Z) - Path-Lock Expert: Separating Reasoning Mode in Hybrid Thinking via Architecture-Level Separation [16.560201276956175]
ハイブリッド思考言語モデルは明示的な思考と非思考モードを露呈するが、現在の設計ではそれらをきれいに分離していない。
一つの計算層を意味的にロックされた2つの専門家に置き換えるアーキテクチャレベルのソリューションであるPath-Lock Expert (PLE)を提案する。
PLEは、より正確で、より簡潔で、リークの原因となる可能性がはるかに低い、はるかに強力なノンシンクモードを生成する。
論文 参考訳(メタデータ) (2026-04-29T21:07:47Z) - LLM Reasoning Predicts When Models Are Right: Evidence from Coding Classroom Discourse [0.18268488712787334]
大規模言語モデル(LLM)は、大規模に教育対話を自動的にラベル付けし分析するために、ますます多くデプロイされている。
本研究では,LLMが生成した推論がモデル自身の予測の正確性を予測するのに有効かどうかを検討する。
授業の対話から30,300人の教師の発話を分析し,複数の最先端LPMでラベル付けし,指導的移動構造とそれに伴う推論を行った。
論文 参考訳(メタデータ) (2026-02-10T14:38:13Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models [68.03946716358335]
既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識を操作する場所がわかると期待しているからです。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
論文 参考訳(メタデータ) (2023-01-10T21:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。