論文の概要: Foundation Model Self-Play: Open-Ended Strategy Innovation via Foundation Models
- arxiv url: http://arxiv.org/abs/2507.06466v1
- Date: Wed, 09 Jul 2025 00:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.429841
- Title: Foundation Model Self-Play: Open-Ended Strategy Innovation via Foundation Models
- Title(参考訳): Foundation Model Self-Play: Foundation Modelsによるオープンエンディング戦略革新
- Authors: Aaron Dharna, Cong Lu, Jeff Clune,
- Abstract要約: Foundation-Model Self-Play(FMSP)は、コード生成機能とファンデーションモデル(FM)の膨大な知識を活用して、ポリシー空間におけるローカルな最適性を飛び越えることで、課題を克服する新しい方向性である。
Gandalfでは、攻撃者がLLMの防御をジェイルブレイクしようとする単純なAI安全シミュレーションである。
- 参考スコア(独自算出の注目度): 5.404186221463082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent interactions have long fueled innovation, from natural predator-prey dynamics to the space race. Self-play (SP) algorithms try to harness these dynamics by pitting agents against ever-improving opponents, thereby creating an implicit curriculum toward learning high-quality solutions. However, SP often fails to produce diverse solutions and can get stuck in locally optimal behaviors. We introduce Foundation-Model Self-Play (FMSP), a new direction that leverages the code-generation capabilities and vast knowledge of foundation models (FMs) to overcome these challenges by leaping across local optima in policy space. We propose a family of approaches: (1) \textbf{Vanilla Foundation-Model Self-Play (vFMSP)} continually refines agent policies via competitive self-play; (2) \textbf{Novelty-Search Self-Play (NSSP)} builds a diverse population of strategies, ignoring performance; and (3) the most promising variant, \textbf{Quality-Diveristy Self-Play (QDSP)}, creates a diverse set of high-quality policies by combining the diversity of NSSP and refinement of vFMSP. We evaluate FMSPs in Car Tag, a continuous-control pursuer-evader setting, and in Gandalf, a simple AI safety simulation in which an attacker tries to jailbreak an LLM's defenses. In Car Tag, FMSPs explore a wide variety of reinforcement learning, tree search, and heuristic-based methods, to name just a few. In terms of discovered policy quality, \ouralgo and vFMSP surpass strong human-designed strategies. In Gandalf, FMSPs can successfully automatically red-team an LLM, breaking through and jailbreaking six different, progressively stronger levels of defense. Furthermore, FMSPs can automatically proceed to patch the discovered vulnerabilities. Overall, FMSPs represent a promising new research frontier of improving self-play with foundation models, opening fresh paths toward more creative and open-ended strategy discovery
- Abstract(参考訳): マルチエージェント相互作用は、自然捕食者-捕食者のダイナミクスから宇宙レースまで、長い間イノベーションを加速させてきた。
セルフプレイ(SP)アルゴリズムは、エージェントを不利な相手に対してピットすることでこれらのダイナミクスを活用し、高品質なソリューションを学ぶための暗黙のカリキュラムを作成しようとする。
しかしながら、SPは多種多様な解を生成できず、局所最適の振る舞いで立ち往生することがある。
本稿では,FMSP(Foundation-Model Self-Play)について紹介する。FM(Foundation-Model Self-Play)という,コード生成機能とFM(Foundation Model)の膨大な知識を活用して,政策空間におけるローカルな最適化を飛躍させることによって,これらの課題を克服する。
提案するアプローチは,(1) \textbf{Vanilla Foundation-Model Self-Play (vFMSP), (2) \textbf{Novelty-Search Self-Play (NSSP), (3)最も有望な変種である \textbf{Quality-Diveristy Self-Play (QDSP) は,NSSPの多様性とvFMSPの洗練を組み合わせて,多種多様な高品質な政策を創出する。
Gandalfでは、攻撃者がLLMの防御をジェイルブレイクしようとする単純なAI安全シミュレーションである。
Car Tagでは、FMSPが多種多様な強化学習、木探索、ヒューリスティックな手法を探求している。
政策の質の発見に関して、 \ouralgo と vFMSP は強い人間設計戦略を超越している。
ガンダルフでは、FMSPはLSMを自動で再配置し、6つの異なるより強力な防御レベルを突破し、投獄する。
さらに、FMSPは、発見した脆弱性に自動的にパッチを適用できる。
FMSPは、ファンデーションモデルによるセルフプレイの改善と、より創造的でオープンな戦略発見への新たな道を開く、有望な新たな研究フロンティアである。
関連論文リスト
- RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models [62.12822290276912]
Auto-RTは、複雑な攻撃戦略を探索し最適化する強化学習フレームワークである。
探索効率を大幅に改善し、攻撃戦略を自動的に最適化することにより、Auto-RTはボーダの脆弱性範囲を検出し、検出速度が速く、既存の方法と比較して16.63%高い成功率を達成する。
論文 参考訳(メタデータ) (2025-01-03T14:30:14Z) - Online Planning for Multi-UAV Pursuit-Evasion in Unknown Environments Using Deep Reinforcement Learning [16.676389371667284]
マルチUAV追跡回避は、UAV群知能にとって重要な課題である。
本研究では,協調戦略学習における部分的可観測性に対処するために,回避者予測強化ネットワークを導入する。
我々は、2段階の報酬改善を通じて実現可能な政策を導出し、ゼロショット方式で実四重項にポリシーを展開する。
論文 参考訳(メタデータ) (2024-09-24T08:40:04Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - Personalized Wireless Federated Learning for Large Language Models [75.22457544349668]
大規模言語モデル(LLM)は、無線ネットワークにおいて大きな変革をもたらしている。
無線環境では、LLMのトレーニングはセキュリティとプライバシに関する重大な課題に直面している。
本稿では,無線ネットワークにおけるLLMのトレーニング段階の体系的解析を行い,事前学習,命令チューニング,アライメントチューニングを行う。
論文 参考訳(メタデータ) (2024-04-20T02:30:21Z) - Learning Diverse Risk Preferences in Population-based Self-play [23.07952140353786]
現在のセルフプレイアルゴリズムはエージェントを最適化し、現在のコピーや歴史的なコピーに対して期待される勝利率を最大化する。
我々は,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から,多様性を導入する。
本手法は,競技ゲームにおいて,同等あるいは優れた性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T06:56:02Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。