論文の概要: Understanding Performance Gap Between Parallel and Sequential Sampling in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2604.05868v1
- Date: Tue, 07 Apr 2026 13:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.855898
- Title: Understanding Performance Gap Between Parallel and Sequential Sampling in Large Reasoning Models
- Title(参考訳): 大規模推論モデルにおける並列とシークエンシャルサンプリング間の性能ギャップの理解
- Authors: Xiangming Gu, Soham De, Larisa Markeeva, Petar Veličković, Razvan Pascanu,
- Abstract要約: 大規模推論モデル(LRM)は、数学やコーディングといった難しい問題に対して顕著なパフォーマンスを示している。
より複雑なプロセスを形成するために構成できるサンプリング戦略は、シーケンシャルサンプリングと並列サンプリングの2つがある。
本稿では,これら2つの手法を厳密に比較し,並列サンプリングが逐次サンプリングより優れていることを示す。
- 参考スコア(独自算出の注目度): 22.43427076561539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have shown remarkable performance on challenging questions, such as math and coding. However, to obtain a high quality solution, one may need to sample more than once. In principal, there are two sampling strategies that can be composed to form more complex processes: sequential sampling and parallel sampling. In this paper, we first compare these two approaches with rigor, and observe, aligned with previous works, that parallel sampling seems to outperform sequential sampling even though the latter should have more representation power. To understand the underline reasons, we make three hypothesis on the reason behind this behavior: (i) parallel sampling outperforms due to the aggregator operator; (ii) sequential sampling is harmed by needing to use longer contexts; (iii) sequential sampling leads to less exploration due to conditioning on previous answers. The empirical evidence on various model families and sizes (Qwen3, DeepSeek-R1 distilled models, Gemini 2.5) and question domains (math and coding) suggests that the aggregation and context length do not seem to be the main culprit behind the performance gap. In contrast, the lack of exploration seems to play a considerably larger role, and we argue that this is one main cause for the performance gap.
- Abstract(参考訳): 大規模推論モデル(LRM)は、数学やコーディングといった難しい問題に対して顕著なパフォーマンスを示している。
しかし、高品質なソリューションを得るためには、1回以上サンプリングする必要があるかもしれない。
主に、シーケンシャルサンプリングと並列サンプリングという、より複雑なプロセスを形成するために構成できる2つのサンプリング戦略がある。
本稿では、まずこれらの2つの手法を厳密に比較し、従来の研究と一致して、並列サンプリングがより表現力を持つべきであっても、シーケンシャルサンプリングよりも優れていることを観察する。
根底にある理由を理解するために、我々はこの行動の背後にある理由を3つの仮説を立てる。
一 集積子演算子による並列サンプリング性能
(ii) より長いコンテキストを使用する必要により、シーケンシャルサンプリングが損なわれること。
三 逐次サンプリングにより、前の回答の条件付けによる探索が少なくなること。
様々なモデルファミリーとサイズに関する実証的な証拠(Qwen3、DeepSeek-R1蒸留モデル、Gemini 2.5)と疑問領域(マスとコーディング)は、アグリゲーションとコンテクストの長さがパフォーマンスギャップの背後にある主要な原因ではないことを示唆している。
対照的に、探索の欠如は、かなり大きな役割を果たすように思える。
関連論文リスト
- Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - CASHEW: Stabilizing Multimodal Reasoning via Iterative Trajectory Aggregation [6.356820150960838]
視覚言語モデルを安定させるために,テスト時間スケーリングにインスパイアされた2つの補完的アプローチを導入する。
CASHEWは推論時のフレームワークで、複数の候補軌道を高品質な推論トレースに反復的に集約することで推論を安定化する。
CASHEW-RL はグループシーケンスポリシー最適化 (GSPO) を用いて訓練されており、最小でも十分な視覚的証拠に根ざした正しい回答を促す複合報酬が提供されている。
論文 参考訳(メタデータ) (2026-01-12T21:24:45Z) - Learning to Reason in LLMs by Expectation Maximization [55.721496945401846]
我々は推論を潜在変数モデルとして定式化し、推論を学ぶための期待最大化目標を導出する。
この見解はEMと現代の報酬に基づく最適化を結びつけるものであり、正しい答えを正当化する有理性を生成するサンプリング分布を設計することの主な課題であることを示している。
論文 参考訳(メタデータ) (2025-12-23T08:56:49Z) - Reevaluating Self-Consistency Scaling in Multi-Agent Systems [0.0]
本研究では,現代大言語モデル(LLM)における自己整合性におけるサンプル推論経路の増加のトレードオフについて検討する。
古いモデルによる以前の研究では、複数の推論チェーンを組み合わせることで、高原に到達する前に結果が改善されていた。
論文 参考訳(メタデータ) (2025-11-02T00:36:49Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - A2R: An Asymmetric Two-Stage Reasoning Framework for Parallel Reasoning [57.727084580884075]
モデルポテンシャルと実際の性能の間のギャップを埋めるために設計された非対称な2段階推論フレームワーク。
A2R-Efficientは、Qwen3-4BとQwen3-8Bシンセサイザーを組み合わせた「小型から大型」の派生型である。
その結果、A2Rはパフォーマンス・ブートスティングのフレームワークであるだけでなく、現実世界のアプリケーションに対して効率的かつ実用的なソリューションであることがわかった。
論文 参考訳(メタデータ) (2025-09-26T08:27:03Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Parallelized Acquisition for Active Learning using Monte Carlo Sampling [0.0]
近年,ガウス過程(GP)回帰に基づく後部エミュレータの使用が注目されている。
ほぼ恥ずかしい並列シーケンシャルサンプリング器を用いて, 後頭部のモンテカルロサンプルを生成する方法を示す。
得られたほぼ分類されたモンテカルロサンプルは、逐次条件付き取得関数値に従ってランク付けされた候補のバッチを生成するために使用される。
論文 参考訳(メタデータ) (2023-05-30T17:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。