論文の概要: Certain Head, Uncertain Tail: Expert-Sample for Test-Time Scaling in Fine-Grained MoE
- arxiv url: http://arxiv.org/abs/2602.02443v1
- Date: Mon, 02 Feb 2026 18:39:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.365007
- Title: Certain Head, Uncertain Tail: Expert-Sample for Test-Time Scaling in Fine-Grained MoE
- Title(参考訳): 微粒化MoEにおける試験時間スケーリングのエキスパートサンプル
- Authors: Yuanteng Chen, Peisong Wang, Nanxin Zeng, Yuantian Shao, Gang Li, Jing Liu, Jian Cheng,
- Abstract要約: きめ細かいMoEは、層ごとに何百ものよく訓練されたエキスパートとトークンごとに複数の専門家がアクティベーションする。
ルータスコアは、ある程度の高信頼度専門家の頭と、不確実な低信頼度候補の尾を示す。
本稿では,不確実な尾に制御性を注入しながら高信頼度の選択を保存し,出力を不安定にすることなく多種多様な生成を可能にする訓練自由度手法であるExpert-Sampleを提案する。
- 参考スコア(独自算出の注目度): 27.8012190589404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling improves LLM performance by generating multiple candidate solutions, yet token-level sampling requires temperature tuning that trades off diversity against stability. Fine-grained MoE, featuring hundreds of well-trained experts per layer and multi-expert activation per token, offers an unexplored alternative through its rich routing space. We empirically characterize fine-grained MoE routing and uncover an informative pattern: router scores exhibit a certain head of high-confidence experts followed by an uncertain tail of low-confidence candidates. While single-run greedy accuracy remains stable when fewer experts are activated, multi-sample pass@n degrades significantly-suggesting that the certain head governs core reasoning capability while the uncertain tail correlates with reasoning diversity. Motivated by these findings, we propose Expert-Sample, a training-free method that preserves high-confidence selections while injecting controlled stochasticity into the uncertain tail, enabling diverse generation without destabilizing outputs. Evaluated on multiple fine-grained MoE models across math, knowledge reasoning, and code tasks, Expert-Sample consistently improves pass@n and verification-based accuracy. On Qwen3-30B-A3B-Instruct evaluated on GPQA-Diamond with 32 parallel samples, pass@32 rises from 85.4% to 91.9%, and accuracy improves from 59.1% to 62.6% with Best-of-N verification.
- Abstract(参考訳): テストタイムスケーリングは、複数の候補解を生成することでLCM性能を向上させるが、トークンレベルのサンプリングでは、安定性に対して多様性をトレードオフする温度調整が必要である。
きめ細かいMoEは、層ごとに何百ものよく訓練されたエキスパートとトークンごとに複数の専門家がアクティベートされる。
ルータスコアは、ある程度の高信頼度専門家の頭と、不確実な低信頼度候補の尾を示す。
専門家が少なくなるとシングルラングリーディの精度は安定しているが、マルチサンプルのpass@nは、特定のヘッドがコア推論能力を制御し、不確実なテールが推論の多様性と相関していることを著しく推奨する。
これらの結果から,不確実な尾に制御確率を注入しながら高信頼度の選択を保存し,出力を不安定にすることなく多種多様な生成を可能にする訓練自由度手法であるExpert-Sampleを提案する。
数学、知識推論、コードタスクを含む複数の詳細なMoEモデルを評価することで、Expert-Sampleは、pass@nと検証ベースの精度を一貫して改善する。
Qwen3-30B-A3B-Instruct on GPQA-Diamond with 32 parallel sample, pass@32 ups 85.4% to 91.9%, accuracys 59.1% to 62.6% with Best-of-N verification。
関連論文リスト
- LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning [15.597220136913258]
LYNXはオンラインのアーリーエグジットメカニズムで、モデル自身の隠れ状態の認識を信頼性制御による停止決定に変換する。
一般的な数学的コーパスで一度このプローブをトレーニングして校正し、ベンチマーク、復号化温度、さらには非数学的なタスクで再利用します。
論文 参考訳(メタデータ) (2025-12-05T00:04:42Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal [27.26251627767238]
大規模言語モデル(LLM)は、過度に保守的な安全対策のため、誤って良心的なクエリーを拒否する過度な拒絶を示す。
本稿では,LLMオーバーリフレクションの系統的検出と解析を行うための,最初の進化的テストフレームワークORFuzzを紹介する。
論文 参考訳(メタデータ) (2025-08-15T05:03:26Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Adversarial Robustness Overestimation and Instability in TRADES [4.063518154926961]
TRADES は多クラス分類タスクにおける AutoAttack テストの精度と比較して,PGD の検証精度が極めて高い場合が多い。
この矛盾は、勾配マスキングに結びつく可能性のある、これらのインスタンスに対するロバストネスのかなりの過大評価を浮き彫りにする。
論文 参考訳(メタデータ) (2024-10-10T07:32:40Z) - Certified Robust Accuracy of Neural Networks Are Bounded due to Bayes Errors [3.350980549219263]
認定トレーニングは頑丈さを向上するが、精度も著しく低下する。
正確性を保ちながら頑健性を達成するための一定の基本的限界があるかどうかは不明である。
ベイズ誤差をロバスト性解析に適用することにより、確証されたロバスト精度の限界について検討する。
論文 参考訳(メタデータ) (2024-05-19T13:23:05Z) - Confidence-aware Training of Smoothed Classifiers for Certified
Robustness [75.95332266383417]
我々は「ガウス雑音下での精度」を、入力に対する対角的ロバスト性の容易に計算可能なプロキシとして利用する。
実験の結果, 提案手法は, 最先端の訓練手法による信頼性向上を継続的に示すことがわかった。
論文 参考訳(メタデータ) (2022-12-18T03:57:12Z) - Uncertainty-Driven Action Quality Assessment [11.958132175629368]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Labeling-Free Comparison Testing of Deep Learning Models [28.47632100019289]
本研究では,ラベリング作業の限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。
提案手法は,データセットや分布シフトに関わらず,Spearmanの相関値とKendallの$tau$に対して,最大0.74および0.53のベースライン手法より優れている。
論文 参考訳(メタデータ) (2022-04-08T10:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。