論文の概要: Path-Lock Expert: Separating Reasoning Mode in Hybrid Thinking via Architecture-Level Separation
- arxiv url: http://arxiv.org/abs/2604.27201v1
- Date: Wed, 29 Apr 2026 21:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.806231
- Title: Path-Lock Expert: Separating Reasoning Mode in Hybrid Thinking via Architecture-Level Separation
- Title(参考訳): パスロックエキスパート:アーキテクチャレベル分離によるハイブリッド思考における推論モードの分離
- Authors: Shouren Wang, Wang Yang, Chuang Ma, Debargha Ganguly, Vikash Singh, Chaoda Song, Xinpeng Li, Xianxuan Long, Vipin Chaudhary, Xiaotian Han,
- Abstract要約: ハイブリッド思考言語モデルは明示的な思考と非思考モードを露呈するが、現在の設計ではそれらをきれいに分離していない。
一つの計算層を意味的にロックされた2つの専門家に置き換えるアーキテクチャレベルのソリューションであるPath-Lock Expert (PLE)を提案する。
PLEは、より正確で、より簡潔で、リークの原因となる可能性がはるかに低い、はるかに強力なノンシンクモードを生成する。
- 参考スコア(独自算出の注目度): 16.560201276956175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hybrid-thinking language models expose explicit think and no-think modes, but current designs do not separate them cleanly. Even in no-think mode, models often emit long and self-reflective responses, causing reasoning leakage. Existing work reduces this issue through better data curation and multi-stage training, yet leakage remains because both modes are still encoded in the same feed-forward parameters. We propose Path-Lock Expert (PLE), an architecture-level solution that replaces the single MLP in each decoder layer with two semantically locked experts, one for think and one for no-think, while keeping attention, embeddings, normalization, and the language-model head shared. A deterministic control-token router selects exactly one expert path for the entire sequence, so inference preserves the dense model's per-token computation pattern and each expert receives mode-pure updates during supervised fine-tuning. Across math and science reasoning benchmarks, PLE maintains strong think performance while producing a substantially stronger no-think mode that is more accurate, more concise, and far less prone to reasoning leakage. On Qwen3-4B, for example, PLE reduces no-think reflective tokens on AIME24 from 2.54 to 0.39 and improves no-think accuracy from 20.67% to 40.00%, all while preserving think-mode performance. These results suggest that controllable hybrid thinking is fundamentally an architectural problem, and separating mode-specific feed-forward pathways is a simple and effective solution.
- Abstract(参考訳): ハイブリッド思考言語モデルは明示的な思考と非思考モードを露呈するが、現在の設計ではそれらをきれいに分離しない。
考えもしないモードでも、モデルは長い自己反射的な応答をしばしば発し、原因が漏れる。
既存の作業は、データキュレーションの改善とマルチステージトレーニングを通じてこの問題を軽減するが、両方のモードが同じフィードフォワードパラメータにエンコードされているため、リークは残る。
アーキテクチャレベルのソリューションであるPath-Lock Expert(PLE)を提案し、各デコーダ層内の単一のMLPを2つのセマンティックロックされたエキスパートに置き換える。
決定論的制御トーケンルータは、シーケンス全体のちょうど1つのエキスパートパスを選択するので、推論は高密度モデルのトーケン毎の計算パターンを保存し、各専門家は教師付き微調整中にモード更新を受ける。
数学や科学推論のベンチマーク全体を通じて、PLEは強力な思考性能を維持しつつ、より正確で簡潔で、リークの原因となる可能性がはるかに低い非思考モードを生み出している。
例えば Qwen3-4B では、ple は AIME24 の反射トークンを 2.54 から 0.39 に減らし、思考モード性能を維持しながら、20.67% から 40.00% に補正する。
これらの結果は、制御可能なハイブリッド思考は基本的にアーキテクチャ上の問題であり、モード固有のフィードフォワード経路の分離は単純で効果的な解であることを示している。
関連論文リスト
- GCoT-Decoding: Unlocking Deep Reasoning Paths for Universal Question Answering [12.903751268469698]
連鎖推論は大きな言語モデルを強化することができるが、モデルを導くには手動で設計したプロンプトが必要である。
最近提案された CoT-decoding はプロンプトなしで CoT スタイルの推論経路を生成することができるが、これは固定解集合の問題にのみ適用できる。
本稿では,幅広い質問応答タスクに適用可能な汎用デコーディング戦略GCoTデコーディングを提案する。
論文 参考訳(メタデータ) (2026-04-08T08:06:45Z) - Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - Think Twice: Branch-and-Rethink Reasoning Reward Model [32.70732791642558]
本稿では,2ターンのRMであるブランチ・アンド・リコンプリート(BR-RM)について紹介する。
我々は、厳密なフォーマットチェックによる単純なバイナリ結果報酬を用いて、構造化された2ターントレース上でGRPOスタイルの強化学習を訓練する。
All-at-oncescoringinto focus, second-lookreasoning を変換することにより、BR-RMreducesjudgmentdiffusionand は微妙で連続的な誤りに対する感受性を高める。
論文 参考訳(メタデータ) (2025-10-27T17:58:07Z) - DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - What makes Reasoning Models Different? Follow the Reasoning Leader for Efficient Decoding [84.42056293290015]
推論モデルと非推論モデルの間のトークンレベルのミスアライメントを分析する。
本稿では,FoReaL-Decodingを提案する。
一般的な4つの数学推論ベンチマークにおいて、FoReaL-Decodingは理論FLOPを30から50%減らし、CoTの長さを最大40%減らした。
論文 参考訳(メタデータ) (2025-06-08T05:08:32Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL [36.40577746211243]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。
この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。
推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
論文 参考訳(メタデータ) (2025-05-16T04:01:57Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。