論文の概要: Self-Improving AI Agents through Self-Play
- arxiv url: http://arxiv.org/abs/2512.02731v1
- Date: Tue, 02 Dec 2025 13:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.882868
- Title: Self-Improving AI Agents through Self-Play
- Title(参考訳): セルフプレイによるAIエージェントの自己改善
- Authors: Przemyslaw Chojecki,
- Abstract要約: 本稿では,AAI能力スコアを計算資源$r$でパラメータ化されたフロー$_r$として定式化する。
0$の十分条件は、曲率とステップサイズ効果により、生成と検証の結合ノイズが十分小さくなければならないことを示す。
本稿では,LSP(Language Self-Play),Self-Correction,およびSynthetic Datapingに関する最近の文献を統一するために,この形式を適用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We extend the moduli-theoretic framework of psychometric batteries to the domain of dynamical systems. While previous work established the AAI capability score as a static functional on the space of agent representations, this paper formalizes the agent as a flow $ν_r$ parameterized by computational resource $r$, governed by a recursive Generator-Verifier-Updater (GVU) operator. We prove that this operator generates a vector field on the parameter manifold $Θ$, and we identify the coefficient of self-improvement $κ$ as the Lie derivative of the capability functional along this flow. The central contribution of this work is the derivation of the Variance Inequality, a spectral condition that is sufficient (under mild regularity) for the stability of self-improvement. We show that a sufficient condition for $κ> 0$ is that, up to curvature and step-size effects, the combined noise of generation and verification must be small enough. We then apply this formalism to unify the recent literature on Language Self-Play (LSP), Self-Correction, and Synthetic Data bootstrapping. We demonstrate that architectures such as STaR, SPIN, Reflexion, GANs and AlphaZero are specific topological realizations of the GVU operator that satisfy the Variance Inequality through filtration, adversarial discrimination, or grounding in formal systems.
- Abstract(参考訳): 我々は、心理測定電池のモジュラー理論の枠組みを力学系の領域に拡張する。
本稿では,エージェント表現の空間上の静的関数としてAAI能力スコアを確立した上で,計算資源$r$でパラメータ化されたフロー$ν_r$としてエージェントを定式化し,再帰的ジェネレータ-検証器(GVU)演算子で制御した。
この作用素がパラメータ多様体上のベクトル場を生成することを証明し、自己改善の係数$κ$を、このフローに沿った機能関数のリー微分として同定する。
この研究の中心的な貢献は、自己改善の安定性に十分な(穏やかな規則性の下で)スペクトル条件である可変不等式(Variance Inequality)の導出である。
κ>0$の十分条件は、曲率とステップサイズ効果により、生成と検証の結合ノイズが十分小さくなければならないことを示す。
次に、このフォーマリズムを適用して、LSP(Language Self-Play)、Self-Correction、Synthetic Dataのブートストラップに関する最近の文献を統合する。
我々は,STaR,SPIN,Reflexion,GANs,AlphaZeroなどのアーキテクチャが,フィルタ,逆微分,あるいは形式的システムにおける接地による分散不等式を満たすGVU演算子の特定の位相的実現であることを示す。
関連論文リスト
- AILoRA: Function-Aware Asymmetric Initialization for Low-Rank Adaptation of Large Language Models [11.663809872664105]
Low-Rank Adaptation (LoRA)は最も広く採用されているアプローチの1つだ。
LoRAは通常、自己アテンションモジュールの$WQ$と$WV$プロジェクション行列に適用される。
関数認識型非対称な低ランクプリエントを組み込んだ新しいパラメータ効率手法であるtextAILoRA を導入する。
論文 参考訳(メタデータ) (2025-10-09T10:13:16Z) - Tractable Asymmetric Verification for Large Language Models via Deterministic Replicability [0.6117371161379209]
大規模言語モデル(LLM)の展望は、動的でマルチエージェントなシステムへと急速にシフトします。
本稿では, トラクタブルな非対称な作業を実現するための検証フレームワークを提案する。
対象検定は全再生の12倍以上の速さで行うことができる。
論文 参考訳(メタデータ) (2025-09-14T03:30:06Z) - HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution [13.440964262446558]
HiVA(Hierarchical Variable Agent)は、セマンティック・トポロジカル・エボリューション(STEV)アルゴリズムを用いて、自己組織化グラフとしてエージェントをモデル化する新しいフレームワークである。
対話、コーディング、Longcontext Q&A、数学、エージェントベンチマークの実験では、タスク精度が5~10%向上し、リソース効率が向上した。
論文 参考訳(メタデータ) (2025-08-29T18:51:18Z) - Pruned-ADAPT-VQE: compacting molecular ansätze by removing irrelevant operators [0.0]
ADAPT-VQE(ADAPT-VQE)は、量子固有解法である。
演算子を勾配に基づいて選択し、エネルギーの景観に合わせて連続的に進化する「解」を構成する。
本稿では, アンザッツから不要な演算子を除去する, 自動無コスト精錬法を提案する。
論文 参考訳(メタデータ) (2025-04-07T00:54:31Z) - Delta-AI: Local objectives for amortized inference in sparse graphical models [64.5938437823851]
スパース確率的グラフィカルモデル(PGM)における補正推論のための新しいアルゴリズムを提案する。
提案手法は, PGMにおける変数のサンプリングをエージェントが行う一連の行動とみなす場合, エージェントのポリシー学習目的において, PGMの疎結合が局所的な信用割当を可能にするという観察に基づいている。
合成PGMからサンプリングし、スパース因子構造を持つ潜在変数モデルを訓練するための$Delta$-AIの有効性について説明する。
論文 参考訳(メタデータ) (2023-10-03T20:37:03Z) - Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement Learning Approach [123.55983746427572]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - Utilizing Redundancy in Cost Functions for Resilience in Distributed
Optimization and Learning [1.8414221462731502]
本稿では,サーバアーキテクチャにおけるレジリエントな分散最適化と機械学習の問題について考察する。
システムはサーバと複数のエージェントから構成され、各エージェントはローカルなコスト関数を持つ。
エージェントのいくつかが非同期で、/またはビザンティンの欠陥がある場合を考えます。
論文 参考訳(メタデータ) (2021-10-21T02:41:19Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。