論文の概要: Route-Induced Density and Stability (RIDE): Controlled Intervention and Mechanism Analysis of Routing-Style Meta Prompts on LLM Internal States
- arxiv url: http://arxiv.org/abs/2603.29206v1
- Date: Tue, 31 Mar 2026 03:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.076511
- Title: Route-Induced Density and Stability (RIDE): Controlled Intervention and Mechanism Analysis of Routing-Style Meta Prompts on LLM Internal States
- Title(参考訳): 経路誘起密度と安定性(RIDE):LLM内部状態における経路型メタプロンプトの制御と機構解析
- Authors: Dianxing Zhang, Gang Li, Sheng Li,
- Abstract要約: 我々は,アクティベーション空間,(C2)ドメインキーワードの注意,(C3)予測エントロピーと意味的変動による出力安定性を定量化する。
ルーティング設計の校正と不確実性推定のための診断プローブとしてRIDEを提案する。
- 参考スコア(独自算出の注目度): 10.639846833695806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Routing is widely used to scale large language models, from Mixture-of-Experts gating to multi-model/tool selection. A common belief is that routing to a task ``expert'' activates sparser internal computation and thus yields more certain and stable outputs (the Sparsity--Certainty Hypothesis). We test this belief by injecting routing-style meta prompts as a textual proxy for routing signals in front of frozen instruction-tuned LLMs. We quantify (C1) internal density via activation sparsity, (C2) domain-keyword attention, and (C3) output stability via predictive entropy and semantic variation. On a RouterEval subset with three instruction-tuned models (Qwen3-8B, Llama-3.1-8B-Instruct, and Mistral-7B-Instruct-v0.2), meta prompts consistently densify early/middle-layer representations rather than increasing sparsity; natural-language expert instructions are often stronger than structured tags. Attention responses are heterogeneous: Qwen/Llama reduce keyword attention, while Mistral reinforces it. Finally, the densification--stability link is weak and appears only in Qwen, with near-zero correlations in Llama and Mistral. We present RIDE as a diagnostic probe for calibrating routing design and uncertainty estimation.
- Abstract(参考訳): ルーティングは、Mixture-of-Experts Gatingからマルチモデル/ツールセレクションまで、大規模な言語モデルをスケールするために広く使用されている。
あるタスク ``expert'' へのルーティングはスペーサーの内部計算を活性化し、より確実で安定した出力をもたらす(スペーサー性-確実性仮説)。
我々は、凍結した命令調整LDMの前でのルーティング信号のテキストプロキシとして、ルーティングスタイルのメタプロンプトを注入することで、この信念をテストする。
我々は,(C1) 内部密度を活性化間隔,(C2) ドメインキーワードの注意,(C3) 出力安定性を予測エントロピーと意味的変動により定量化する。
命令調整された3つのモデル(Qwen3-8B、Llama-3.1-8B-Instruct、Mistral-7B-Instruct-v0.2)を持つReuterEvalサブセットでは、メタプロンプトは空白度を増大させるのではなく、早期/中期の表現を一貫して強化する。
Qwen/Llamaはキーワードの注意を減らし、Mistralはそれを補強する。
最後に、密度-安定性リンクは弱く、Qwenにのみ現れ、LlamaとMistralにほぼゼロの相関がある。
ルーティング設計の校正と不確実性推定のための診断プローブとしてRIDEを提案する。
関連論文リスト
- Sparse Visual Thought Circuits in Vision-Language Models [2.5754366051855837]
我々はQwen3-VL-8Bにおける疎視的思考回路の局所化とテストを行う因果パイプラインを開発した。
この層でSAEを訓練し、明示的な規則でタスク選択集合を構築し、精度とドリフトを定量化しながら推論時間スケーリングとアブレーションを行う。
論文 参考訳(メタデータ) (2026-03-26T06:24:36Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement [0.24443539255794253]
事前訓練された大言語モデル(LLMs)は、幻覚として知られる事実的不正確なテキストを生成する傾向にある。
本研究では,中間層でこれらの信号を聴くことによって,推論時に幻覚を緩和する,新しい学習自由復号アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-10T07:32:37Z) - RankSteer: Activation Steering for Pointwise LLM Ranking [13.718395381871751]
大規模言語モデル(LLM)は、最近ゼロショットローダとして高い性能を示したが、それらの効果は迅速な定式化に非常に敏感である。
ゼロショットポイントワイドLSMランキングのためのポストホックアクティベーションステアリングフレームワークである RankSteer を提案する。
TREC DL 20と複数のBEIRベンチマークの実験により、RangeSteerは少数のアンカークエリのみを使用して、ランキング品質を一貫して改善することが示された。
論文 参考訳(メタデータ) (2026-02-03T11:49:00Z) - TraceRouter: Robust Safety for Large Foundation Models via Path-Level Intervention [44.64827167753535]
有害なセマンティクスは分散層間回路として機能し、局所的な介入が不安定で実用性に有害である。
我々は,不特定意味論の因果伝播回路をトレースし,切断するパスレベルフレームワークである textbfTrace を提案する。
トレースは最先端のベースラインを著しく上回り、敵の堅牢性と汎用性とのトレードオフが優れている。
論文 参考訳(メタデータ) (2026-01-29T15:58:12Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。