論文の概要: Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations
- arxiv url: http://arxiv.org/abs/2604.14246v1
- Date: Wed, 15 Apr 2026 06:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:29.941637
- Title: Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations
- Title(参考訳): 休業専門家の目を覚ます:MoEの幻覚を緩和するための企業的ルート
- Authors: Wentao Hu, Yanbo Zhai, Xiaohui Hu, Mingkuan Zhao, Shanhong yu, Xue Liu, Kaidong Yu, Shuangyong Song, Xuelong Li,
- Abstract要約: 本稿では,専門家の覚醒を目的としたトレーニングフリー推論フレームワークCoRを提案する。
CoRは、計算資源を動的にシフトさせるために、レイヤーワイド摂動解析とCEI(Counterfactual Expert Impact)メトリクスを統合する。
TruthfulQA、FACTOR、TriviaQAの実験では、予測予算を増やさずに、CoRが現実の精度を平均3.1%向上することを示した。
- 参考スコア(独自算出の注目度): 47.02065120237642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixture-of-Experts (MoE) models have achieved remarkable scalability, yet they remain vulnerable to hallucinations, particularly when processing long-tail knowledge. We identify that this fragility stems from static Top-$k$ routing: routers tend to favor high-frequency patterns over rare factual associations. Consequently, ``specialist experts'' possessing critical long-tail knowledge are often assigned low gating scores and remain ``dormant'' -- under-prioritized for specific tokens despite their proven causal importance on other inputs. To address this, we propose Counterfactual Routing (CoR), a training-free inference framework designed to awaken these dormant experts. CoR integrates layer-wise perturbation analysis with the Counterfactual Expert Impact (CEI) metric to dynamically shift computational resources from syntax-dominant to knowledge-intensive layers while maintaining a constant total activation count, effectively retrieving causally decisive experts via virtual ablation. Extensive experiments on TruthfulQA, FACTOR, and TriviaQA demonstrate that CoR improves factual accuracy by 3.1\% on average without increasing the inference budget, establishing a superior Pareto frontier compared to static scaling strategies.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE) モデルは優れたスケーラビリティを実現しているが、特にロングテール知識を処理する場合、幻覚に弱いままである。
ルータは稀な事実関連よりも高周波パターンを好む傾向にある。
それゆえ、批判的な長身の知識を持つ「専門主義者」は、しばしば低いゲーティングスコアを割り当てられ、他の入力に因果的重要性があることが証明されたにもかかわらず、特定のトークンに対して優先順位が低い '`dormant''' のままである。
そこで本研究では,これらの休眠専門家を覚醒させるためのトレーニングフリー推論フレームワークであるCoRを提案する。
CoRは、階層的な摂動解析とCEI(Counterfactual Expert Impact)メトリクスを統合して、計算資源を構文に支配的な層から知識集約層に動的にシフトし、一定の総アクティベーション数を維持しながら、仮想アブレーションによって因果決定的な専門家を効果的に回収する。
TruthfulQA、FACTOR、TriviaQAに関する大規模な実験は、CoRが推論予算を増やさずに、現実の精度を平均3.1\%改善し、静的スケーリング戦略よりも優れたParetoフロンティアを確立することを示した。
関連論文リスト
- DK-Root: A Joint Data-and-Knowledge-Driven Framework for Root Cause Analysis of QoE Degradations in Mobile Networks [17.511985643225618]
DK-Rootは,根本原因分析のための共同データ・知識駆動型フレームワークである。
堅牢な根本原因分析のための厳密な専門家ガイダンスとともに、スケーラブルな弱監視を統一する。
実世界のオペレータグレードデータセットの実験では、最先端の精度が示されている。
論文 参考訳(メタデータ) (2025-11-13T09:32:01Z) - Going Beyond Expert Performance via Deep Implicit Imitation Reinforcement Learning [3.691573844585973]
本研究では、深層強化学習と観測専用データセットからの暗黙的模倣学習を組み合わせた暗黙的模倣強化学習フレームワークを提案する。
我々の主要なアルゴリズムであるDeep Implicit Q-Network (DIIQN)は、オンライン探索を通じて専門家の行動を再構築するアクション推論機構を採用している。
我々はさらに、専門家とエージェントが異なるアクションセットを持つシナリオに取り組むために、不均一なアクションDIIQN(HA-DIIQN)アルゴリズムでフレームワークを拡張した。
論文 参考訳(メタデータ) (2025-11-05T16:33:39Z) - LEAF: A Robust Expert-Based Framework for Few-Shot Continual Event Detection [7.094483187879095]
LEAFは、連続イベント検出のための新しくて堅牢なエキスパートベースのフレームワークである。
各専門家はローランク適応(LoRA)行列でパラメータ化される。
セマンティックアウェアの専門家選択機構は、インスタンスを最も関係のある専門家に動的にルーティングし、専門家の専門化と知識干渉の低減を可能にする。
論文 参考訳(メタデータ) (2025-09-29T10:00:25Z) - One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning [52.966712416640085]
本稿では,タスク固有戦略と共有プロンプト戦略の両方の利点を統合する新しいフレームワークであるSMoPEを提案する。
SMoPEはタスク固有のプロンプトメソッドを一貫して上回り、最先端のアプローチと競合する性能を達成する。
論文 参考訳(メタデータ) (2025-09-29T08:54:58Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - Mixture of Tunable Experts - Behavior Modification of DeepSeek-R1 at Inference Time [1.1655046053160683]
本稿では,Large Language Models(LLMs)のMixture-of-Expertsアーキテクチャを拡張する手法を提案する。
MoTEは、推論時間中のLLMにおける有意義で集中的な振る舞い変化を可能にする。
論文 参考訳(メタデータ) (2025-02-16T12:24:39Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。