論文の概要: G-Zero: Self-Play for Open-Ended Generation from Zero Data
- arxiv url: http://arxiv.org/abs/2605.09959v1
- Date: Mon, 11 May 2026 04:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.512693
- Title: G-Zero: Self-Play for Open-Ended Generation from Zero Data
- Title(参考訳): G-Zero:ゼロデータからのオープンエンディング生成のためのセルフプレイ
- Authors: Chengsong Huang, Haolin Liu, Tong Zheng, Runpeng Dai, Langlin Huang, Jinyuan Li, Zongxia Li, Zhepei Wei, Yu Meng, Jiaxin Huang,
- Abstract要約: G-Zeroは、自律的な自己改善のための検証自由で共進化的なフレームワークである。
Hint-$は、ジェネレータモデルの非アシスト応答と、自己生成ヒントに条件付けされた応答との予測シフトを定量化する、本質的な報酬です。
- 参考スコア(独自算出の注目度): 31.297741262456594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-evolving LLMs excel in verifiable domains but struggle in open-ended tasks, where reliance on proxy LLM judges introduces capability bottlenecks and reward hacking. To overcome this, we introduce G-Zero, a verifier-free, co-evolutionary framework for autonomous self-improvement. Our core innovation is Hint-$δ$, an intrinsic reward that quantifies the predictive shift between a Generator model's unassisted response and its response conditioned on a self-generated hint. Using this signal, a Proposer model is trained via GRPO to continuously target the Generator's blind spots by synthesizing challenging queries and informative hints. The Generator is concurrently optimized via DPO to internalize these hint-guided improvements. Theoretically, we prove a best-iterate suboptimality guarantee for an idealized standard-DPO version of G-Zero, provided that the Proposer induces sufficient exploration coverage and the data filteration keeps pseudo-label score noise low. By deriving supervision entirely from internal distributional dynamics, G-Zero bypasses the capability ceilings of external judges, providing a scalable, robust pathway for continuous LLM self-evolution across unverifiable domains.
- Abstract(参考訳): 自己進化型LLMは検証可能なドメインに優れるが、プロキシ LLM の判断に依存するような、オープンなタスクに苦慮している。
そこで本稿では,自律的自己改善のための検証自由で共進化的なフレームワークであるG-Zeroを紹介する。
私たちの中心となるイノベーションはHint-$δ$で、ジェネレータモデルの非アシスト応答と自己生成ヒントで条件付けられた応答の間の予測シフトを定量化する固有の報酬です。
この信号を使用して、ProposerモデルはGRPOを介してトレーニングされ、挑戦的なクエリと情報的ヒントを合成することによって、ジェネレータの盲点を継続的にターゲットする。
ジェネレータは、これらのヒント誘導された改善を内部化するためにDPOを介して同時に最適化される。
理論的には、G-Zeroの理想化された標準DPOバージョンに対する最適部分最適性を保証するため、Proposerは十分な探索カバレッジを誘導し、データフィルタリングは擬似ラベルスコアノイズを低く抑える。
G-Zeroは内部分布力学から完全に監督を導出することにより、外部の裁判官の能力天井をバイパスし、検証不可能な領域を横断する連続LLM自己進化のためのスケーラブルで堅牢な経路を提供する。
関連論文リスト
- Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision [50.61441331643804]
強化学習(Reinforcement Learning、RLVR)は、広く適用可能で強力であるが、訓練中に緩やかな監督しか提供しない二進的な報酬に依存している。
蒸留は、一般的に外部の教師や高品質なデモンストレーションを使って得られる、密集したトークンレベルの監督を提供する。
自己蒸留ゼロ(SD-Zero)は,RLよりもかなり訓練効率が高く,外部教師や高品質な実演を必要としない手法である。
論文 参考訳(メタデータ) (2026-04-13T19:46:55Z) - Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation [50.696688705287755]
我々は、強化学習におけるスパース報酬課題を克服するために、相互情報自己評価を提案する。
MISEにより、エージェントは、疎外的信号を補う高密度な内部報酬から自律的に学習することができる。
我々は、後見自己評価報酬を利用することは、政策と代行報酬政策の間のKL分散項と相互情報を組み合わせた目的を最小化することと等価であることを示す。
論文 参考訳(メタデータ) (2026-04-13T15:18:51Z) - Growing with the Generator: Self-paced GRPO for Video Generation [45.5073437581357]
グループ相対政策最適化は、ビデオ生成後のモデルのための強力な強化学習パラダイムとして登場した。
本稿では,報奨フィードバックをジェネレータと共進化させる能力を考慮したGRPOフレームワークであるSelf-Paced GRPOを提案する。
生成品質が向上するにつれて、粗い視覚的忠実度から時間的コヒーレンス、微粒なテキスト・ビデオ・セマンティックアライメントに重点を移すプログレッシブ報酬機構を導入する。
論文 参考訳(メタデータ) (2025-11-24T17:56:03Z) - R-Zero: Self-Evolving Reasoning LLM from Zero Data [47.8125954446991]
自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。
このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。
R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
論文 参考訳(メタデータ) (2025-08-07T03:38:16Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - HUWSOD: Holistic Self-training for Unified Weakly Supervised Object Detection [66.42229859018775]
我々は,HUWSOD(HuWSOD)と呼ばれる,統一・高容量弱教師付きオブジェクト検出(WSOD)ネットワークを導入する。
HUWSODには、自己管理された提案生成器と、従来のオブジェクト提案を置き換えるために、マルチレートで再構成されたピラミッドを備えたオートエンコーダ提案生成器が組み込まれている。
提案手法は,よく設計されたオフラインオブジェクト提案と大きく異なるが,WSOD訓練には有効であることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - GLINT-RU: Gated Lightweight Intelligent Recurrent Units for Sequential Recommender Systems [32.859977720871356]
本稿では,軽量かつ効率的なトランスフォーマーベースシーケンシャルレコメンデータシステムであるGLINT-RUを紹介する。
厳密な選択ゲートを組み込むことで、GLINT-RUは時間依存と微粒な位置情報を適応的にキャプチャし、高品質な潜伏表現を生成する。
3つのデータセットに対する大規模な実験により、GLINT-RUはより優れた予測精度と推論速度を達成することが示された。
論文 参考訳(メタデータ) (2024-06-06T13:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。