論文の概要: Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain
- arxiv url: http://arxiv.org/abs/2603.02218v1
- Date: Tue, 10 Feb 2026 08:12:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.080328
- Title: Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain
- Title(参考訳): 自己合成パイプラインが学習可能な情報の獲得を保証するときのみ、セルフプレイは進化する
- Authors: Wei Liu, Siya Qi, Yali Du, Yulan He,
- Abstract要約: 大規模言語モデル(LLM)は、自己進化ループを通じて改善されるシステムを構築するのにもっとも適している。
持続可能な自己進化には、繰り返しにまたがる学習可能な情報を備えた自己合成データパイプラインが必要です。
- 参考スコア(独自算出の注目度): 22.77669491242655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) make it plausible to build systems that improve through self-evolving loops, but many existing proposals are better understood as self-play and often plateau quickly. A central failure mode is that the loop synthesises more data without increasing learnable information for the next iteration. Through experiments on a self-play coding task, we reveal that sustainable self-evolution requires a self-synthesised data pipeline with learnable information that increases across iterations. We identify triadic roles that self-evolving LLMs play: the Proposer, which generates tasks; the Solver, which attempts solutions; and the Verifier, which provides training signals, and we identify three system designs that jointly target learnable information gain from this triadic roles perspective. Asymmetric co-evolution closes a weak-to-strong-to-weak loop across roles. Capacity growth expands parameter and inference-time budgets to match rising learnable information. Proactive information seeking introduces external context and new task sources that prevent saturation. Together, these modules provide a measurable, system-level path from brittle self-play dynamics to sustained self-evolution.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自己進化ループを通じて改善するシステムを構築するのにもっとも適しているが、既存の提案の多くは、セルフプレイとして理解され、しばしば素早くプラトーとして理解されている。
中心的な障害モードは、ループが次のイテレーションで学習可能な情報を増やすことなくより多くのデータを合成することである。
自己再生コーディングタスクの実験を通じて、持続的な自己進化には、繰り返しにまたがる学習可能な情報を備えた自己合成データパイプラインが必要であることが明らかになった。
自己進化型LLMが果たす三元的役割は,タスクを生成するProposer,ソリューションを試みるSolver,トレーニング信号を提供するVerifierの三元的役割と,この三元的役割の観点から学習可能な情報の獲得を共同で狙う3つのシステム設計を同定する。
非対称な共進化は、役割間の弱-強-弱ループを閉じる。
キャパシティの増大は、学習可能な情報の増加に合わせてパラメータと推論時間の予算を拡大する。
積極的な情報探索は、飽和を防ぐための外部コンテキストと新しいタスクソースを導入する。
これらのモジュールは、脆弱なセルフプレイダイナミクスから持続的な自己進化まで、測定可能なシステムレベルのパスを提供する。
関連論文リスト
- Yunjue Agent Tech Report: A Fully Reproducible, Zero-Start In-Situ Self-Evolving Agent System for Open-Ended Tasks [10.622439192272527]
従来のエージェントシステムは、タスク分布が継続的にドリフトし、外部の監視が不十分な、オープンな環境に苦しむ。
In-Situ Self-Evolving(In-Situ Self-Evolving)パラダイムを提案する。
このフレームワーク内では、新しい課題をナビゲートするためのツールを反復的に合成、最適化、再利用するシステムであるYunjue Agentを開発します。
論文 参考訳(メタデータ) (2026-01-26T07:27:47Z) - SPELL: Self-Play Reinforcement Learning for evolving Long-Context Language Models [79.01078135582127]
SPELLは、長文推論のためのスケーラブルでラベルなしの最適化を可能にする。
本稿では、文書長を徐々に向上させる自動カリキュラムと、モデルの進化する機能に質問の難しさを適応させる報奨関数を導入する。
論文 参考訳(メタデータ) (2025-09-28T13:08:10Z) - Knowing You Don't Know: Learning When to Continue Search in Multi-round RAG through Self-Practicing [4.874077691069634]
Retrieval Augmented Generation (RAG)は、言語モデルの知識を高め、AI生成幻覚を減らす強力な能力を示している。
現在のマルチラウンドRAGシステムは、十分な情報が既に取得されている場合でも検索を続けることができる。
本稿では,RAGシステムの自己認識と多ラウンド検索機能を強化するための新しいフレームワークSIM-RAGを提案する。
論文 参考訳(メタデータ) (2025-05-05T17:39:35Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。