論文の概要: Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training
- arxiv url: http://arxiv.org/abs/2505.14681v1
- Date: Tue, 20 May 2025 17:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.67078
- Title: Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training
- Title(参考訳): ステアリング思考に必要な2人の専門家:追加トレーニングなしでのMoE推論モデルにおける認知的努力の強化
- Authors: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu,
- Abstract要約: 我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
- 参考スコア(独自算出の注目度): 86.70255651945602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs) have achieved impressive reasoning capabilities by selectively activating experts to facilitate structured cognitive processes. Despite notable advances, existing reasoning models often suffer from cognitive inefficiencies like overthinking and underthinking. To address these limitations, we introduce a novel inference-time steering methodology called Reinforcing Cognitive Experts (RICE), designed to improve reasoning performance without additional training or complex heuristics. Leveraging normalized Pointwise Mutual Information (nPMI), we systematically identify specialized experts, termed ''cognitive experts'' that orchestrate meta-level reasoning operations characterized by tokens like ''<think>''. Empirical evaluations with leading MoE-based LRMs (DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning benchmarks demonstrate noticeable and consistent improvements in reasoning accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our lightweight approach substantially outperforms prevalent reasoning-steering techniques, such as prompt design and decoding constraints, while preserving the model's general instruction-following skills. These results highlight reinforcing cognitive experts as a promising, practical, and interpretable direction to enhance cognitive efficiency within advanced reasoning models.
- Abstract(参考訳): 大規模推論モデル(LRM)内のMixture-of-Experts (MoE)アーキテクチャは、構造化認知プロセスを促進するために専門家を選択的に活性化することによって、印象的な推論機能を実現している。
顕著な進歩にもかかわらず、既存の推論モデルは、過度に考え直したり、考え直したりといった認知的非効率性に悩まされることが多い。
これらの制約に対処するため,新たな推論時ステアリング手法であるReinforcing Cognitive Experts (RICE)を導入する。
標準化されたポイントワイド・ミューチュアル・インフォメーション(nPMI)を活用し,「認知専門家」と呼ばれる特殊専門家を体系的に同定し,メタレベルの推論操作を「「思考」のようなトークンによって編成する。
厳密な量的および科学的推論ベンチマークにおけるMoEをベースとしたLRM(DeepSeek-R1およびQwen3-235B)を用いた実証的な評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
重要なことは、我々の軽量なアプローチは、モデルの一般的な指示追従スキルを保ちながら、迅速な設計やデコード制約などの一般的な推論・ステアリング技術よりも大幅に優れています。
これらの結果は、先進的推論モデルにおける認知効率を高めるために、認知専門家を有望で実践的で解釈可能な方向として補強することを強調する。
関連論文リスト
- RARE: Retrieval-Augmented Reasoning Modeling [41.24577920467858]
本稿では,推論最適化から知識記憶を分離する新しいパラダイムであるRetrieval-Augmented Reasoning Modeling (RARE)を提案する。
RAREはドメイン知識を検索可能なソースに外部化し、トレーニング中にドメイン固有の推論パターンを内部化する。
実験により、軽量トレーニングモデル(例えば、Llama-3.1-8B)は、検索強化GPT-4とDeepSeek-R1を約20%の精度で超える、最先端のパフォーマンスを実現することができた。
論文 参考訳(メタデータ) (2025-03-30T16:49:44Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - Unlocking Structured Thinking in Language Models with Cognitive Prompting [0.0]
大規模言語モデル(LLM)における問題解決を導く新しいアプローチとして認知的プロンプトを提案する。
本稿では,認知操作の決定論的シーケンス,自己適応型,ハイブリッド型という3つの変種を紹介する。
LLaMA, Gemma2, Qwenの各モデルの算術的推論ベンチマークGSM8Kにおける実験により、認知的プロンプトは標準的な質問応答に比べて性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-10-03T19:53:47Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。