論文の概要: Your Model Diversity, Not Method, Determines Reasoning Strategy
- arxiv url: http://arxiv.org/abs/2604.10827v1
- Date: Sun, 12 Apr 2026 21:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.236689
- Title: Your Model Diversity, Not Method, Determines Reasoning Strategy
- Title(参考訳): モデルの多様性、メソッドではなく、推論戦略を決定する
- Authors: Moulik Choraria, Argyrios Gerogiannis, Anirban Das, Supriyo Chakraborty, Berkcan Kapusuzoglu, Chia-Hsuan Lee, Kartik Balasubramaniam, Shi-Xiong Zhang, Sambit Sahu,
- Abstract要約: LLM推論では、解決策の探索と有望なソリューションの精錬の間に予算を割り当てる必要がある。
我々は、推論の不確実性を分解する理論的枠組みを通じてこれを定式化する。
また,Qwen-3 4BとOlmo-3 7Bファミリで検証した結果,深度に基づく精細化には軽量信号が十分であることが示唆された。
- 参考スコア(独自算出の注目度): 12.495748277530938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compute scaling for LLM reasoning requires allocating budget between exploring solution approaches ($breadth$) and refining promising solutions ($depth$). Most methods implicitly trade off one for the other, yet why a given trade-off works remains unclear, and validation on a single model obscures the role of the model itself. We argue that $\textbf{the optimal strategy depends on the model's diversity profile, the spread of probability mass across solution approaches, and that this must be characterized before any exploration strategy is adopted.}$ We formalize this through a theoretical framework decomposing reasoning uncertainty and derive conditions under which tree-style depth refinement outperforms parallel sampling. We validate it on Qwen-3 4B and Olmo-3 7B families, showing that lightweight signals suffice for depth-based refinement on low-diversity aligned models while yielding limited utility for high-diversity base models, which we hypothesize require stronger compensation for lower exploration coverage.
- Abstract(参考訳): LLM推論のための計算スケーリングには、ソリューションのアプローチ(breadth$)と、有望なソリューション(depth$)の間の予算を割り当てる必要がある。
ほとんどのメソッドは暗黙的に他方とトレードオフするが、なぜ与えられたトレードオフが機能するのかはいまだ不明であり、単一のモデルに対する検証はモデル自体の役割を曖昧にします。
我々は、$\textbf{thetimal strategyはモデルの多様性プロファイル、解アプローチにまたがる確率質量の拡散に依存し、任意の探索戦略を採用する前にこれを特徴付ける必要があると論じる。
木型深度補正が並列サンプリングより優れている条件と推論の不確かさを分解する理論的枠組みによりこれを定式化する。
我々はQwen-3 4BおよびOlmo-3 7Bファミリーで検証を行い、低ダイバーシティアライメントモデルにおいて、低ダイバーシティアライメントモデルに対する深度ベース改良のための軽量信号が十分であり、高ダイバーシティベースモデルに対する限定効用が得られることを示した。
関連論文リスト
- How Hard is it to Confuse a World Model? [6.896797484250302]
強化学習理論において、最も紛らわしい例の概念は、後悔の少ない境界を確立する中心である。
我々は、ニューラルネットワークの世界モデルに対するこの問題を制約付き最適化として定式化する。
以上の結果から, 達成可能な混乱度は, 近似モデルの不確実性と相関することが示唆された。
論文 参考訳(メタデータ) (2025-10-24T08:08:12Z) - Robust Optimization with Diffusion Models for Green Security [49.68562792424776]
グリーンセキュリティでは、効果的パトロールを計画するためには、密猟、違法伐採、違法漁などの敵の行動を予測する必要がある。
本稿では,その強い分布適合性を利用した逆挙動モデリングのための条件付き拡散モデルを提案する。
混合戦略の混合戦略を導入し, 正確なサンプリングを行うために, ツイスト型シークエンシャルモンテカルロ (SMC) サンプリング装置を用いる。
論文 参考訳(メタデータ) (2025-02-19T05:30:46Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Model-based Offline Policy Optimization with Adversarial Network [0.36868085124383626]
本稿では,新たなモデルベースオフラインポリシー最適化フレームワーク(MOAN)を提案する。
主なアイデアは、敵の学習を使って、より良い一般化を伴う遷移モデルを構築することである。
我々の手法は、広く研究されているオフラインRLベンチマークにおいて、最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-05T11:49:33Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Is Plug-in Solver Sample-Efficient for Feature-based Reinforcement
Learning? [30.065091907118827]
本研究は,マルコフ決定過程(MDP)における$epsilon$-optimal Policyの発見の複雑さについて考察する。
実験モデルを構築し,任意のプラグインソルバを用いて実験モデルを計画するプラグインソルバ手法を用いてこの問題を解決する。
プラグインアプローチはサンプル効率も向上し,強化学習のためのモデルベースアルゴリズムを設計するための柔軟なアプローチを提供する。
論文 参考訳(メタデータ) (2020-10-12T13:13:01Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。