論文の概要: DEBATE, TRAIN, EVOLVE: Self Evolution of Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2505.15734v1
- Date: Wed, 21 May 2025 16:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.781201
- Title: DEBATE, TRAIN, EVOLVE: Self Evolution of Language Model Reasoning
- Title(参考訳): DEBATE, TRAIN, EVOLVE: 言語モデル推論の自己進化
- Authors: Gaurav Srivastava, Zhenyu Bi, Meng Lu, Xuan Wang,
- Abstract要約: 大規模言語モデル(LLM)は、大規模なデータセットの広範なトレーニングを通じて、その推論において大幅に改善されている。
Debate, Train, Evolve (DTE) は,複数エージェントの議論トレースを用いて単一の言語モデルを進化させる,基礎となる真理のないトレーニングフレームワークである。
- 参考スコア(独自算出の注目度): 5.194953854159821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have improved significantly in their reasoning through extensive training on massive datasets. However, relying solely on additional data for improvement is becoming increasingly impractical, highlighting the need for models to autonomously enhance their reasoning without external supervision. In this paper, we propose Debate, Train, Evolve (DTE), a novel ground truth-free training framework that uses multi-agent debate traces to evolve a single language model. We also introduce a new prompting strategy Reflect-Critique-Refine, to improve debate quality by explicitly instructing agents to critique and refine their reasoning. Extensive evaluations on five reasoning benchmarks with six open-weight models show that our DTE framework achieve substantial improvements, with an average accuracy gain of 8.92% on the challenging GSM-PLUS dataset. Furthermore, we observe strong cross-domain generalization, with an average accuracy gain of 5.8% on all other benchmarks, suggesting that our method captures general reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大規模なデータセットの広範なトレーニングを通じて、その推論において大幅に改善されている。
しかし、改善のための追加データのみに頼ることは、ますます現実的になりつつあり、外部の監督なしに推論を自律的に強化するモデルの必要性が浮き彫りになっている。
本稿では,複数エージェントの議論トレースを用いて単一言語モデルを進化させる,新たな真理自由学習フレームワークであるDebate, Train, Evolve (DTE)を提案する。
また, エージェントに批判を指示し, 推論を洗練させ, 議論の質を向上させるための新たなプロンプト戦略も導入する。
6つのオープンウェイトモデルによる5つの推論ベンチマークの大規模な評価は、我々のDTEフレームワークが、挑戦的なGSM-PLUSデータセットで平均8.92%の精度向上を達成していることを示している。
さらに、他のベンチマークで平均精度が5.8%向上した強いクロスドメイン一般化を観察し、本手法が一般的な推論能力を捉えることを示唆した。
関連論文リスト
- Scaling Reasoning can Improve Factuality in Large Language Models [7.184302333801519]
複雑なオープンドメイン質問応答(QA)シナリオにおいて,大規模言語モデル(LLM)の推論を徹底的に検討する。
推論トレースを豊かにするために、我々は知識グラフからの事実情報を、推論トレースへの経路の形で導入する。
本研究は,1回の動作において,より小さな推論モデルにより,従来の命令調整モデルと比較して,実際の精度が顕著に向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-16T11:39:33Z) - Phi-4-reasoning Technical Report [42.508165017775]
Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。
我々はPhi-4-reasoning-plusを開発した。
どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
論文 参考訳(メタデータ) (2025-04-30T05:05:09Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Self-training Language Models for Arithmetic Reasoning [0.0]
我々は、新しいデータなしでモデルの推論能力を改善する可能性を探る。
モデルは単一ラウンド(オフライン)とオンラインの自己学習の両方で大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2024-07-11T11:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。