論文の概要: Adaptive Multi-Expert Reasoning via Difficulty-Aware Routing and Uncertainty-Guided Aggregation
- arxiv url: http://arxiv.org/abs/2604.10335v1
- Date: Sat, 11 Apr 2026 19:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.961399
- Title: Adaptive Multi-Expert Reasoning via Difficulty-Aware Routing and Uncertainty-Guided Aggregation
- Title(参考訳): 難易度を考慮したルーティングと不確実性誘導アグリゲーションによる適応型マルチエキスパート推論
- Authors: Mohamed Ehab, Ali Hamdi,
- Abstract要約: 本稿では,動的適応戦略による推論による問題複雑性に着目したフレームワークであるAdaptive Multi-Expert Reasoning (AMR)について述べる。
問題テキストに焦点を当てたアジャイルルーティングシステムは、問題の難しさと不確実性を予測し、再構成可能なサンプリングメカニズムを誘導し、生成の幅を管理する。
GSM8Kデータセットで評価すると、AMRはオリジナルのトレーニングデータのみを使用しながら75.28%の精度を達成した。
- 参考スコア(独自算出の注目度): 0.2864713389096699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate strong performance in math reasoning benchmarks, but their performance varies inconsistently across problems with varying levels of difficulty. This paper describes Adaptive Multi-Expert Reasoning (AMR), a framework that focuses on problem complexity by reasoning with dynamically adapted strategies. An agile routing system that focuses on problem text predicts problems' difficulty and uncertainty and guides a reconfigurable sampling mechanism to manage the breadth of generation. Three specialized experts create candidate responses, which are modified during multiple correction and finalization phases. A neural verifier assesses the correctness of responses, while a clustering-based aggregation technique identifies the final candidate answer based on a combination of consensus and answer quality. When evaluated on the GSM8K dataset, AMR achieved 75.28% accuracy while only using the original training data. This result outperformed the majority of comparable 7B models that were trained on synthetic data. This showcases that models using difficulty-based routing and uncertainty-driven aggregation are efficient and effective in improving math reasoning models' robustness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学推論ベンチマークにおいて強い性能を示すが、その性能は様々な難易度を持つ問題に対して矛盾なく変化する。
本稿では,動的適応戦略による推論による問題複雑性に着目したフレームワークであるAdaptive Multi-Expert Reasoning (AMR)について述べる。
問題テキストに焦点を当てたアジャイルルーティングシステムは、問題の難しさと不確実性を予測し、再構成可能なサンプリングメカニズムを誘導し、生成の幅を管理する。
3人の専門専門家が候補回答を作成し、複数の修正と最終フェーズで修正される。
ニューラルネットワーク検証器は、応答の正しさを評価し、クラスタリングベースの集約手法は、コンセンサスと回答品質の組み合わせに基づいて最終候補回答を特定する。
GSM8Kデータセットで評価すると、AMRはオリジナルのトレーニングデータのみを使用しながら75.28%の精度を達成した。
その結果、合成データで訓練された同等の7Bモデルの大半を上回りました。
このことは、困難に基づくルーティングと不確実性駆動集約を用いたモデルは、数学推論モデルの堅牢性を改善するのに効率的かつ効果的であることを示している。
関連論文リスト
- Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models [60.418191092851636]
OmanicはオープンドメインのマルチホップQAリソースであり、推論プロセスを分析するための構造アノテーションとして分解されたサブクエストと中間回答を提供する。
10,296個の機械によるトレーニング例(Omanic Synth)と967個の専門家による注釈付き評価例(OmanicBench)を含む。
論文 参考訳(メタデータ) (2026-03-17T15:23:37Z) - AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process [35.95284812390557]
本稿では,実世界,OCR,GUI,知識,数学の5分野にわたる適応型マルチモーダル推論のベンチマークであるAdaptMMBenchを提案する。
評価の結果,適応モード選択はモデルキャパシティに比例するが,最終的な精度から切り離されることが明らかとなった。
論文 参考訳(メタデータ) (2026-02-02T19:00:27Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - MAB Optimizer for Estimating Math Question Difficulty via Inverse CV without NLP [3.9566483499208633]
本研究では,強化学習に基づくマルチアーメッドバンド(MAB)フレームワークであるEducands(APME)のパッシブ対策のアプローチを紹介する。
変動の逆係数をリスク調整計量として活用することにより、モデルは適応的評価のための説明可能でスケーラブルなメカニズムを提供する。
論文 参考訳(メタデータ) (2025-08-26T13:23:31Z) - PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。
このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。
既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。
プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文 参考訳(メタデータ) (2025-05-25T17:58:50Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。