論文の概要: Self Rewarding Self Improving
- arxiv url: http://arxiv.org/abs/2505.08827v1
- Date: Mon, 12 May 2025 23:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.24301
- Title: Self Rewarding Self Improving
- Title(参考訳): セルフリワードによる自己改善
- Authors: Toby Simonds, Kevin Lopez, Akira Yoshiyama, Dominique Garmier,
- Abstract要約: 我々は,大規模な言語モデルが参照ソリューションを必要とせずに自己判断によって効果的に自己改善できることを実証した。
カウントダウンパズルとMIT統合ビー問題に関する実験は、モデルが真理の答えなしに信頼できる報酬信号を提供できることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate that large language models can effectively self-improve through self-judging without requiring reference solutions, leveraging the inherent asymmetry between generating and verifying solutions. Our experiments on Countdown puzzles and MIT Integration Bee problems show that models can provide reliable reward signals without ground truth answers, enabling reinforcement learning in domains previously not possible. By implementing self-judging, we achieve significant performance gains maintaining alignment with formal verification. When combined with synthetic question generation, we establish a complete self-improvement loop where models generate practice problems, solve them, and evaluate their own performance-achieving an 8% improvement with Qwen 2.5 7B over baseline and surpassing GPT-4o performance on integration tasks. Our findings demonstrate that LLM judges can provide effective reward signals for training models, unlocking many reinforcement learning environments previously limited by the difficulty of creating programmatic rewards. This suggests a potential paradigm shift toward AI systems that continuously improve through self-directed learning rather than human-guided training, potentially accelerating progress in domains with scarce training data or complex evaluation requirements.
- Abstract(参考訳): 我々は,大規模な言語モデルが参照解を必要とせず,自己判断によって効果的に自己改善できることを実証した。
カウントダウンパズルとMIT統合ビー問題に関する実験により、モデルが真理の答えなしに信頼できる報酬信号を提供できることを示し、これまで不可能だった領域での強化学習を可能にした。
自己判断を行うことで,形式的検証と整合性を維持することで,大幅な性能向上を実現している。
そこで本研究では,Qwen 2.5 7Bをベースライン上で,GPT-4oを積分タスクで上回り,その性能を8%向上させる,完全自己改善ループを構築した。
以上の結果から,LLM審査員はトレーニングモデルに効果的な報酬信号を提供し,これまでプログラムによる報酬作成が困難であった強化学習環境の多くを解放できることがわかった。
これは、人間の指導によるトレーニングではなく、自己指導による学習を通じて継続的に改善されるAIシステムへの潜在的なパラダイムシフトを示唆し、トレーニングデータ不足や複雑な評価要件のあるドメインの進歩を加速させる可能性があることを示唆している。
関連論文リスト
- LADDER: Self-Improving LLMs Through Recursive Problem Decomposition [0.0]
LADDERは、大規模言語モデルが問題解決能力を自律的に改善できるフレームワークである。
数学的統合の課題において, LADDERの有効性を実証する。
また、TTRLを導入し、推論時にテスト問題の変種について強化学習を行う。
論文 参考訳(メタデータ) (2025-03-02T05:16:43Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Iterative Deepening Sampling for Large Language Models [27.807695570974644]
効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。
自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。
本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。
我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文 参考訳(メタデータ) (2024-11-17T12:31:04Z) - Self-Consistency Preference Optimization [79.37880123635405]
自己整合性優先最適化(ScPO)を導入する。
ScPOは、教師なしの新たな問題に関して、一貫性のない答えよりも好まれる一貫性のある回答を反復的に訓練する。
ゼブラ論理では、ScPO fine Llamatunes-3 8Bは、Llama-3 70B、Gemma-2 27B、Claude-3 Haikuより優れている。
論文 参考訳(メタデータ) (2024-11-06T18:36:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。