論文の概要: $π$-Play: Multi-Agent Self-Play via Privileged Self-Distillation without External Data
- arxiv url: http://arxiv.org/abs/2604.14054v1
- Date: Wed, 15 Apr 2026 16:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.639425
- Title: $π$-Play: Multi-Agent Self-Play via Privileged Self-Distillation without External Data
- Title(参考訳): π$-Play: 外部データなしのプリヴィレグド自己蒸留によるマルチエージェントセルフプレイ
- Authors: Yaocheng Zhang, Yuanheng Zhu, Wenyue Chong, Songjun Tu, Qichao Zhang, Jiajun Chai, Xiaohan Wang, Wei Lin, Guojun Yin, Dongbin Zhao,
- Abstract要約: マルチエージェントの自己進化フレームワークであるPrivleged Information Self-Play($-Play)を提案する。
$-Playでは、試験者はQCPと一緒にタスクを生成し、教師モデルはQCPを特権的文脈として活用し、自己蒸留を通じて生徒を密に監督する。
データフリーの$-Playは、完全に教師された検索エージェントを超え、従来のセルフプレイよりも2-3$times$で進化効率を向上させる。
- 参考スコア(独自算出の注目度): 57.79227052653548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep search agents have emerged as a promising paradigm for addressing complex information-seeking tasks, but their training remains challenging due to sparse rewards, weak credit assignment, and limited labeled data. Self-play offers a scalable route to reduce data dependence, but conventional self-play optimizes students only through sparse outcome rewards, leading to low learning efficiency. In this work, we observe that self-play naturally produces a question construction path (QCP) during task generation, an intermediate artifact that captures the reverse solution process. This reveals a new source of privileged information for self-distillation: self-play can itself provide high-quality privileged context for the teacher model in a low-cost and scalable manner, without relying on human feedback or curated privileged information. Leveraging this insight, we propose Privileged Information Self-Play ($π$-Play), a multi-agent self-evolution framework. In $π$-Play, an examiner generates tasks together with their QCPs, and a teacher model leverages QCP as privileged context to densely supervise a student via self-distillation. This design transforms conventional sparse-reward self-play into a dense-feedback self-evolution loop. Extensive experiments show that data-free $π$-Play surpasses fully supervised search agents and improves evolutionary efficiency by 2-3$\times$ over conventional self-play.
- Abstract(参考訳): ディープ検索エージェントは、複雑な情報検索タスクに対処するための有望なパラダイムとして登場したが、そのトレーニングは、報酬の不足、クレジットの割り当ての弱さ、ラベル付きデータの制限により、依然として困難なままである。
セルフプレイは、データ依存を減らすためのスケーラブルなルートを提供するが、従来のセルフプレイは、スパースな結果報酬のみで生徒を最適化し、学習効率を低下させる。
本研究では,タスク生成時に自己プレイが自然に質問構築経路(QCP)を生成することを観察する。
セルフプレイは、人からのフィードバックやキュレートされた特権情報に頼ることなく、安価でスケーラブルな方法で教師モデルに高品質な特権的コンテキストを提供することができる。
この知見を生かして、我々は、マルチエージェントの自己進化フレームワークであるPrivleged Information Self-Play(π$-Play)を提案する。
π$-Playでは、試験者はQCPと一緒にタスクを生成し、教師モデルはQCPを特権的文脈として活用し、自己蒸留を通じて生徒を密に監督する。
この設計は、従来のスパース・リワード・セルフプレイを高密度フィードバック自己進化ループに変換する。
データフリーの$π$-Playは、完全に教師された検索エージェントを超え、従来のセルフプレイよりも2-3$\times$で進化効率を向上させる。
関連論文リスト
- SubSearch: Intermediate Rewards for Unsupervised Guided Reasoning in Complex Retrieval [61.73547199231695]
SubSearchは、結果のみの監視から中間報酬信号に移行する特殊なフレームワークである。
実験により、本質的な報酬を伴う中間的推論ステップの報酬はより堅牢な推論トレースをもたらすことが示された。
SubSearchは、複雑なクエリ応答のための検索エンジンをよりよく統合できる推論トレースを構築するのに役立つ。
論文 参考訳(メタデータ) (2026-04-08T13:09:47Z) - Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain [22.77669491242655]
大規模言語モデル(LLM)は、自己進化ループを通じて改善されるシステムを構築するのにもっとも適している。
持続可能な自己進化には、繰り返しにまたがる学習可能な情報を備えた自己合成データパイプラインが必要です。
論文 参考訳(メタデータ) (2026-02-10T08:12:09Z) - Dr. Zero: Self-Evolving Search Agents without Training Data [34.91191770652202]
我々は,検索エージェントがトレーニングデータなしで効果的に自己開発できるフレームワークであるDr. Zeroを紹介した。
特に,提案者が多様な質問を生成する自己進化フィードバックループを設計し,同じベースモデルから問題解決者を訓練する。
トレーニング効率を向上させるため、ホップ群相対ポリシー最適化(HRPO)も導入する。
論文 参考訳(メタデータ) (2026-01-11T20:27:55Z) - AgentEvolver: Towards Efficient Self-Evolving Agent System [51.54882384204726]
本稿では,自律型エージェント学習を駆動する自己進化型エージェントシステムであるAgentEvolverを紹介する。
AgentEvolverは、セルフクエスト、セルフナビゲート、セルフコントリビューションという3つのシナジスティックメカニズムを導入している。
予備実験により、AgentEvolverは従来のRLベースのベースラインと比較して、より効率的な探索、より優れたサンプル利用、より高速な適応を実現していることが示された。
論文 参考訳(メタデータ) (2025-11-13T15:14:47Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Cost-effective Variational Active Entity Resolution [4.238343046459798]
我々は,人間の関与コストを削減するために,ディープオートエンコーダが付与するロバスト性に基づくエンティティ解決手法を考案した。
具体的には、教師なし表現学習を行うことにより、ディープ・エンティティ・リゾリューション・モデルのトレーニングコストを削減する。
最後に,ディープ・オートエンコーダの利用によって与えられる特性に基づくアクティブ・ラーニング・アプローチにより,トレーニングデータのラベル付けコストを削減した。
論文 参考訳(メタデータ) (2020-11-20T13:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。