論文の概要: Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning
- arxiv url: http://arxiv.org/abs/2512.02874v1
- Date: Tue, 02 Dec 2025 15:35:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.950161
- Title: Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning
- Title(参考訳): オープンソース推論のためのログ平均化(Logit Averaging)
- Authors: Haonan Wang, Chao Du, Kenji Kawaguchi, Tianyu Pang,
- Abstract要約: ThinkMergeは、トレーニング不要でプラグ&プレイのデコード戦略だ。
並列推論トレースをKで実行し、同期点における次のTokenロジットを平均化し、単一のコヒーレントな出力を生成する。
- 参考スコア(独自算出の注目度): 102.13989674248116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Majority voting has proven effective for close-ended question answering by aggregating parallel reasoning traces. However, it is not directly applicable to open-ended reasoning, such as code generation and web-based deep research, where a "majority" over complete solutions is ill-defined. We introduce ThinkMerge, a training-free, plug-and-play decoding strategy that runs K parallel reasoning traces and averages their next-token logits at synchronization points to produce a single coherent output. ThinkMerge integrates seamlessly with vLLM/SGLang and remains compatible with standard decoding techniques such as Top-p/Top-k. Empirically, it matches or surpasses majority voting on AIME and GPQA, while delivering consistent gains on open-ended coding tasks: on LiveCodeBench (hard), pass@1 improves by +8.28% for DeepCoder-14B-Preview and +7.58% for Qwen3-8B. Beyond code, we further show that ThinkMerge improves web-based deep-research agents (e.g., WebSailor-7B/32B) across GAIA, BrowseComp-en/zh, and XbenchDeepSearch. These results demonstrate that parallel test-time scaling can benefit open-ended reasoning without relying on voting over complete outputs.
- Abstract(参考訳): 多数決投票は、並列推論トレースを集約することで、緊密な質問応答に有効であることが証明されている。
しかし、コード生成やWebベースのディープリサーチのようなオープンな推論には直接適用できない。
我々は、Kの並列推論トレースを実行し、同期点における次のログを平均化し、単一のコヒーレントな出力を生成する、トレーニング不要でプラグアンドプレイなデコーディング戦略であるThinkMergeを紹介した。
ThinkMergeはvLLM/SGLangとシームレスに統合され、Top-p/Top-kのような標準的なデコーディング技術と互換性がある。
LiveCodeBench (hard)では、pass@1はDeepCoder-14B-Previewでは+8.28%、Qwen3-8Bでは+7.58%向上する。
コード以外にも、ThinkMergeはGAIA、BrowseComp-en/zh、XbenchDeepSearchを含むWebベースのディープ検索エージェント(例えば、WebSailor-7B/32B)を改善しています。
これらの結果は、テスト時間の並列スケーリングが、完全なアウトプットに投票に頼ることなく、オープンな推論に利益をもたらすことを示した。
関連論文リスト
- No Compute Left Behind: Rethinking Reasoning and Sampling with Masked Diffusion Models [42.158430350703505]
マスク付き拡散言語モデルは、ランダムにマスキングされたシーケンスにおける埋め込み位置を訓練する。
推論・アズ・インフィルとマルチトークンエントロピーデコーディングを提案する。
本研究は,MDLMが使用するトレーニングと計算によって,多くの新しい推論とポストトレーニング手法が解き放たれることを示す。
論文 参考訳(メタデータ) (2025-10-22T19:41:27Z) - DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Reasoning Models Can Be Effective Without Thinking [45.411955744222524]
NoThinkingと呼ばれる単純なプロンプトによって思考プロセスをバイパスすることは驚くほど効果的である。
提案手法は,Thinkingと同等のレイテンシで,より長いレイテンシ(最大9倍)でThinkingに匹敵する,一連のベースライン性能を向上する。
論文 参考訳(メタデータ) (2025-04-14T04:08:16Z) - Z1: Efficient Test-time Scaling with Code [26.374317704720234]
大規模言語モデル(LLM)は、テスト時間コンピューティングのスケーリングを通じて、複雑な問題解決を実現することができる。
本稿では,LLMをコード関連推論軌道上で学習する効率的なテスト時間スケーリング手法を提案する。
オーバヘッドを過度に考慮する新しいシフトドシンキングウィンドウを提案する。
論文 参考訳(メタデータ) (2025-04-01T14:01:50Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。
複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。
提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T06:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。