論文の概要: DiffFP: Learning Behaviors from Scratch via Diffusion-based Fictitious Play
- arxiv url: http://arxiv.org/abs/2511.13186v1
- Date: Mon, 17 Nov 2025 09:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.107086
- Title: DiffFP: Learning Behaviors from Scratch via Diffusion-based Fictitious Play
- Title(参考訳): DiffFP:拡散に基づく架空の遊びによるスクラッチからの学習行動
- Authors: Akash Karthikeyan, Yash Vardhan Pant,
- Abstract要約: ゼロサムゲームにおける未確認相手に対する最良の応答を推定する架空のプレイフレームワークであるDiffFPを提案する。
レースや多粒子ゼロサムゲームを含む複雑なマルチエージェント環境において,本手法の有効性を検証した。
提案手法は, RLベースのベースラインに対して, 最大で3$times$高速収束, 30$times$高い成功率を達成する。
- 参考スコア(独自算出の注目度): 5.8808473430456525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-play reinforcement learning has demonstrated significant success in learning complex strategic and interactive behaviors in competitive multi-agent games. However, achieving such behaviors in continuous decision spaces remains challenging. Ensuring adaptability and generalization in self-play settings is critical for achieving competitive performance in dynamic multi-agent environments. These challenges often cause methods to converge slowly or fail to converge at all to a Nash equilibrium, making agents vulnerable to strategic exploitation by unseen opponents. To address these challenges, we propose DiffFP, a fictitious play (FP) framework that estimates the best response to unseen opponents while learning a robust and multimodal behavioral policy. Specifically, we approximate the best response using a diffusion policy that leverages generative modeling to learn adaptive and diverse strategies. Through empirical evaluation, we demonstrate that the proposed FP framework converges towards $ε$-Nash equilibria in continuous- space zero-sum games. We validate our method on complex multi-agent environments, including racing and multi-particle zero-sum games. Simulation results show that the learned policies are robust against diverse opponents and outperform baseline reinforcement learning policies. Our approach achieves up to 3$\times$ faster convergence and 30$\times$ higher success rates on average against RL-based baselines, demonstrating its robustness to opponent strategies and stability across training iterations
- Abstract(参考訳): セルフプレイ強化学習は、競争力のあるマルチエージェントゲームにおいて、複雑な戦略的、インタラクティブな振る舞いを学ぶ上で大きな成功を収めた。
しかし、連続的な決定空間におけるそのような行動を達成することは依然として困難である。
動的マルチエージェント環境での競争性能を達成するためには,自己再生環境における適応性と一般化の確保が重要である。
これらの課題は、しばしばメソッドをゆっくりと収束させるか、あるいは全くナッシュ均衡に収束させず、エージェントを目に見えない相手による戦略的搾取に脆弱にする。
これらの課題に対処するために、我々は、頑健でマルチモーダルな行動ポリシーを学習しながら、目に見えない相手に対する最良の応答を推定する架空のプレイ(FP)フレームワークであるDiffFPを提案する。
具体的には、生成モデルを利用して適応的で多様な戦略を学習する拡散ポリシーを用いて、最良の応答を近似する。
実験的な評価により、提案したFPフレームワークは連続空間ゼロサムゲームにおける$ε$-Nash平衡に収束することを示した。
レースや多粒子ゼロサムゲームを含む複雑なマルチエージェント環境において,本手法の有効性を検証した。
シミュレーションの結果,学習方針は多様な対戦相手に対して堅牢であり,ベースライン強化学習方針よりも優れていた。
我々の手法は、RLベースのベースラインに対して平均3$\times$高速収束と30$\times$高い成功率を達成する。
関連論文リスト
- Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。
本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T21:53:36Z) - Ranking Joint Policies in Dynamic Games using Evolutionary Dynamics [0.0]
単純な2プレイヤーゲームでもエージェントの相互作用のダイナミクスはナッシュ平衡に達することができないことが示されている。
我々のゴールは、安定した行動をもたらすエージェントの合同戦略を特定し、変化に抵抗すると同時に、エージェントの支払いも考慮することである。
論文 参考訳(メタデータ) (2025-02-20T16:50:38Z) - Mimicking To Dominate: Imitation Learning Strategies for Success in
Multiagent Competitive Games [13.060023718506917]
我々は、対戦者の次の動きを予測するための新しいマルチエージェント模倣学習モデルを開発する。
また、模倣学習モデルとポリシートレーニングを組み合わせた、新しいマルチエージェント強化学習アルゴリズムを1つのトレーニングプロセスに導入する。
実験結果から,本手法は既存のマルチエージェントRLアルゴリズムと比較して性能が優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-20T07:30:13Z) - Learning Diverse Risk Preferences in Population-based Self-play [23.07952140353786]
現在のセルフプレイアルゴリズムはエージェントを最適化し、現在のコピーや歴史的なコピーに対して期待される勝利率を最大化する。
我々は,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から,多様性を導入する。
本手法は,競技ゲームにおいて,同等あるいは優れた性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T06:56:02Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Nash Equilibria and Pitfalls of Adversarial Training in Adversarial
Robustness Games [51.90475640044073]
本研究では,2プレイヤゼロサムゲームにおける最適応答戦略の交互化として,対戦訓練について検討する。
一方、ゲームのユニークな純粋なナッシュ均衡が存在し、確実に堅牢である。
論文 参考訳(メタデータ) (2022-10-23T03:21:01Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。