Fugu-MT 論文翻訳(概要): Absolute Zero: Reinforced Self-play Reasoning with Zero Data

論文の概要: Absolute Zero: Reinforced Self-play Reasoning with Zero Data

arxiv url: http://arxiv.org/abs/2505.03335v2
Date: Wed, 07 May 2025 13:01:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-08 12:54:13.650506
Title: Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Title（参考訳）: Absolute Zero: ゼロデータによる強化されたセルフプレイ推論
Authors: Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang,
Abstract要約: 検証可能な報奨付き強化学習(RLVR)は,大規模言語モデルの推論能力を高めることを約束している。本稿では,AZR(Absolute Zero Reasoner)について紹介する。 AZRは、コーディングおよび数学的推論タスクにおける全体的なSOTA性能を達成し、既存のゼロセットモデルより優れている。
参考スコア（独自算出の注目度）: 61.46462130246158
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning with verifiable rewards (RLVR) has shown promise in enhancing the reasoning capabilities of large language models by learning directly from outcome-based rewards. Recent RLVR works that operate under the zero setting avoid supervision in labeling the reasoning process, but still depend on manually curated collections of questions and answers for training. The scarcity of high-quality, human-produced examples raises concerns about the long-term scalability of relying on human supervision, a challenge already evident in the domain of language model pretraining. Furthermore, in a hypothetical future where AI surpasses human intelligence, tasks provided by humans may offer limited learning potential for a superintelligent system. To address these concerns, we propose a new RLVR paradigm called Absolute Zero, in which a single model learns to propose tasks that maximize its own learning progress and improves reasoning by solving them, without relying on any external data. Under this paradigm, we introduce the Absolute Zero Reasoner (AZR), a system that self-evolves its training curriculum and reasoning ability by using a code executor to both validate proposed code reasoning tasks and verify answers, serving as an unified source of verifiable reward to guide open-ended yet grounded learning. Despite being trained entirely without external data, AZR achieves overall SOTA performance on coding and mathematical reasoning tasks, outperforming existing zero-setting models that rely on tens of thousands of in-domain human-curated examples. Furthermore, we demonstrate that AZR can be effectively applied across different model scales and is compatible with various model classes.
Abstract（参考訳）: 検証可能な報酬付き強化学習(RLVR)は、結果に基づく報酬から直接学習することで、大規模言語モデルの推論能力を高めることを約束している。ゼロセッティングの下で動作している最近のRLVR作業では、推論プロセスのラベル付けの監督は避けられているが、それでも手作業による質問や回答の収集に依存している。高品質で人為的な例の不足は、人間の監督に依存する長期的なスケーラビリティに関する懸念を提起する。さらに、AIが人間の知性を超越した仮説的な未来において、人間の提供するタスクは超知能システムに限定的な学習能力を与える可能性がある。これらの問題に対処するために,Absolute Zeroと呼ばれる新しいRLVRパラダイムを提案する。このパラダイムでは,1つのモデルが,学習の進捗を最大化し,外部データに頼ることなく,それを解決することによって推論を改善するタスクの提案を学習する。このパラダイムの下では、AZR(Absolute Zero Reasoner)という学習カリキュラムと推論能力を自己進化させるシステムを導入し、コードエグゼクタを用いて提案されたコード推論タスクの検証と回答の検証を行う。外部データなしで完全に訓練されているにもかかわらず、AZRはコーディングと数学的推論タスクにおける全体的なSOTAのパフォーマンスを達成し、数十万のドメイン内人間が計算した例に依存する既存のゼロセットモデルより優れている。さらに、AZRは様々なモデルスケールで効果的に適用でき、様々なモデルクラスと互換性があることを実証する。

関連論文リスト

R-Zero: Self-Evolving Reasoning LLM from Zero Data [56.74402018426378]
自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。 R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
論文参考訳（メタデータ） (2025-08-07T03:38:16Z)
Maximizing Confidence Alone Improves Reasoning [48.83927980325788]
RENT: エントロピー最小化による強化学習(Reinforcement Learning via Entropy Minimization)は、完全な教師なしのRL手法であり、外部の報酬や地道的な回答を必要としない。得られた回答に高いモデル信頼をもたらす思考の連鎖を強化することで、モデルは推論能力を向上させる。
論文参考訳（メタデータ） (2025-05-28T17:59:37Z)
Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-27T17:16:00Z)
Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
RLSR: Reinforcement Learning from Self Reward [0.0]
大規模な言語モデルでは,参照解を使わずに自己判断によって効果的に自己改善できることを示す。実験により, モデルが真理の答えを得られずに, 信頼性の高い報奨信号を提供できることを示した。この作業は、自己指向学習を通じて継続的に改善される自律型AIシステムに向けた重要なステップである。
論文参考訳（メタデータ） (2025-05-12T23:51:04Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文参考訳（メタデータ） (2024-07-14T21:41:29Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
Self-Supervised Reinforcement Learning that Transfers using Random Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文参考訳（メタデータ） (2023-05-26T20:37:06Z)
Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文参考訳（メタデータ） (2022-12-06T23:12:26Z)
Adversarial Training of Variational Auto-encoders for Continual Zero-shot Learning [1.90365714903665]
本稿では,全タスクの情報を保持する共有VAEモジュールとタスク固有のプライベートVAEモジュールで構成されるハイブリッドネットワークを提案する。モデルのサイズは各タスクで増加し、タスク固有のスキルの破滅的な忘れを防止する。 ZSL (Zero-Shot Learning) と GZSL (Generalized Zero-Shot Learning) による逐次学習よりも優れていることを示す。
論文参考訳（メタデータ） (2021-02-07T11:21:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。