論文の概要: Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking
- arxiv url: http://arxiv.org/abs/2503.19855v1
- Date: Tue, 25 Mar 2025 17:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 02:13:56.561244
- Title: Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking
- Title(参考訳): Think Twice: マルチラウンドテストタイム思考のスケールアップによるLLM推論の強化
- Authors: Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li,
- Abstract要約: 本稿では, 簡易かつ効果的なテスト時間スケーリング手法としてマルチラウンド思考を提案する。
この方法は、その後のラウンドのプロンプトとして過去の回答を活用することにより、モデル推論を反復的に洗練する。
QwQ-32BやDeepSeek-R1など、複数のモデルにわたる実験は、一貫してパフォーマンス改善を示している。
- 参考スコア(独自算出の注目度): 16.441081996257576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have demonstrated the effectiveness of test-time scaling, where extended reasoning processes substantially enhance model performance. Despite this, current models are constrained by limitations in handling long texts and reinforcement learning (RL) training efficiency. To address these issues, we propose a simple yet effective test-time scaling approach Multi-round Thinking. This method iteratively refines model reasoning by leveraging previous answers as prompts for subsequent rounds. Extensive experiments across multiple models, including QwQ-32B and DeepSeek-R1, consistently show performance improvements on various benchmarks such as AIME 2024, MATH-500, GPQA-diamond, and LiveCodeBench. For instance, the accuracy of QwQ-32B improved from 80.3% (Round 1) to 82.1% (Round 2) on the AIME 2024 dataset, while DeepSeek-R1 showed a similar increase from 79.7% to 82.0%. These results confirm that Multi-round Thinking is a broadly applicable, straightforward approach to achieving stable enhancements in model performance, underscoring its potential for future developments in test-time scaling techniques. The key prompt: {Original question prompt} The assistant's previous answer is: <answer> {last round answer} </answer>, and please re-answer.
- Abstract(参考訳): OpenAI-o1やDeepSeek-R1のような大規模言語モデル(LLM)の最近の進歩は、拡張推論プロセスがモデル性能を大幅に向上させるテスト時間スケーリングの有効性を実証している。
それにもかかわらず、現在のモデルは長いテキストと強化学習(RL)訓練効率の制限によって制限されている。
これらの問題に対処するために、我々はシンプルながら効果的なテスト時間スケーリングアプローチであるマルチラウンド思考を提案する。
この方法は、その後のラウンドのプロンプトとして過去の回答を活用することにより、モデル推論を反復的に洗練する。
QwQ-32BやDeepSeek-R1など、複数のモデルにわたる大規模な実験では、AIME 2024、MATH-500、GPQA-diamond、LiveCodeBenchなど、さまざまなベンチマークのパフォーマンスが一貫して改善されている。
例えば QwQ-32B の精度は 80.3% (Round) から改善された。
1)から82.1%(ルート)
AIME 2024データセットでは、DeepSeek-R1も同様に79.7%から82.0%に増加した。
これらの結果から,Multi-round Thinkingはモデル性能の安定的な向上を実現するための,広く適用可能な,直接的なアプローチであることが確認された。
重要なプロンプト: {Original question prompt} アシスタントの以前の回答は以下のとおりである。
関連論文リスト
- Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning [231.11339402237903]
反応前に思考を通して推論できるSeed1.5-Thinkingを紹介した。
Seed1.5-ThinkingはAIME 2024で86.7、Codeforcesで55.0、GPQAで77.3を達成した。
これは、STEMとコーディングにおいて優れた推論能力を示す。
論文 参考訳(メタデータ) (2025-04-10T17:10:51Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks [7.686622572497795]
推論時間スケーリングは、OpenAI o1やDeepSeek R1といった最近のモデルの成功に不可欠である。
私たちは、人間が最初に試みる方法からインスピレーションを得て、他の人から詳細なフィードバックを求め、そのようなフィードバックに基づいて改善します。
Arena EloのベンチマークであるArena Hardのパフォーマンスは、初期レスポンスドラフトの数、効果的なフィードバック、編集されたレスポンスをスケールすることで向上できることを示す。
論文 参考訳(メタデータ) (2025-03-06T12:30:24Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。