論文の概要: Absolute Zero: Reinforced Self-play Reasoning with Zero Data
- arxiv url: http://arxiv.org/abs/2505.03335v2
- Date: Wed, 07 May 2025 13:01:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 12:54:13.650506
- Title: Absolute Zero: Reinforced Self-play Reasoning with Zero Data
- Title(参考訳): Absolute Zero: ゼロデータによる強化されたセルフプレイ推論
- Authors: Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang,
- Abstract要約: 検証可能な報奨付き強化学習(RLVR)は,大規模言語モデルの推論能力を高めることを約束している。
本稿では,AZR(Absolute Zero Reasoner)について紹介する。
AZRは、コーディングおよび数学的推論タスクにおける全体的なSOTA性能を達成し、既存のゼロセットモデルより優れている。
- 参考スコア(独自算出の注目度): 61.46462130246158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has shown promise in enhancing the reasoning capabilities of large language models by learning directly from outcome-based rewards. Recent RLVR works that operate under the zero setting avoid supervision in labeling the reasoning process, but still depend on manually curated collections of questions and answers for training. The scarcity of high-quality, human-produced examples raises concerns about the long-term scalability of relying on human supervision, a challenge already evident in the domain of language model pretraining. Furthermore, in a hypothetical future where AI surpasses human intelligence, tasks provided by humans may offer limited learning potential for a superintelligent system. To address these concerns, we propose a new RLVR paradigm called Absolute Zero, in which a single model learns to propose tasks that maximize its own learning progress and improves reasoning by solving them, without relying on any external data. Under this paradigm, we introduce the Absolute Zero Reasoner (AZR), a system that self-evolves its training curriculum and reasoning ability by using a code executor to both validate proposed code reasoning tasks and verify answers, serving as an unified source of verifiable reward to guide open-ended yet grounded learning. Despite being trained entirely without external data, AZR achieves overall SOTA performance on coding and mathematical reasoning tasks, outperforming existing zero-setting models that rely on tens of thousands of in-domain human-curated examples. Furthermore, we demonstrate that AZR can be effectively applied across different model scales and is compatible with various model classes.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、結果に基づく報酬から直接学習することで、大規模言語モデルの推論能力を高めることを約束している。
ゼロセッティングの下で動作している最近のRLVR作業では、推論プロセスのラベル付けの監督は避けられているが、それでも手作業による質問や回答の収集に依存している。
高品質で人為的な例の不足は、人間の監督に依存する長期的なスケーラビリティに関する懸念を提起する。
さらに、AIが人間の知性を超越した仮説的な未来において、人間の提供するタスクは超知能システムに限定的な学習能力を与える可能性がある。
これらの問題に対処するために,Absolute Zeroと呼ばれる新しいRLVRパラダイムを提案する。このパラダイムでは,1つのモデルが,学習の進捗を最大化し,外部データに頼ることなく,それを解決することによって推論を改善するタスクの提案を学習する。
このパラダイムの下では、AZR(Absolute Zero Reasoner)という学習カリキュラムと推論能力を自己進化させるシステムを導入し、コードエグゼクタを用いて提案されたコード推論タスクの検証と回答の検証を行う。
外部データなしで完全に訓練されているにもかかわらず、AZRはコーディングと数学的推論タスクにおける全体的なSOTAのパフォーマンスを達成し、数十万のドメイン内人間が計算した例に依存する既存のゼロセットモデルより優れている。
さらに、AZRは様々なモデルスケールで効果的に適用でき、様々なモデルクラスと互換性があることを実証する。
関連論文リスト
- OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。
メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-06T23:12:26Z) - Adversarial Training of Variational Auto-encoders for Continual
Zero-shot Learning [1.90365714903665]
本稿では,全タスクの情報を保持する共有VAEモジュールとタスク固有のプライベートVAEモジュールで構成されるハイブリッドネットワークを提案する。
モデルのサイズは各タスクで増加し、タスク固有のスキルの破滅的な忘れを防止する。
ZSL (Zero-Shot Learning) と GZSL (Generalized Zero-Shot Learning) による逐次学習よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-07T11:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。