論文の概要: COMBAT: Conditional World Models for Behavioral Agent Training
- arxiv url: http://arxiv.org/abs/2603.00825v1
- Date: Sat, 28 Feb 2026 22:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.376175
- Title: COMBAT: Conditional World Models for Behavioral Agent Training
- Title(参考訳): COMBAT:行動エージェント訓練のための条件付き世界モデル
- Authors: Anmol Agarwal, Pranay Meshram, Sumer Singh, Saurav Suman, Andrew Lapp, Shahbuland Matiana, Louis Castricato, Spencer Frazier,
- Abstract要約: 我々は、複雑な1v1格闘ゲーム『テッケン3』で訓練されたリアルタイムアクション制御世界モデルであるCOMBATを紹介する。
我々の研究は、拡散モデルがプレイヤーのアクションに反応する動的相手をうまくシミュレートできることを実証している。
シングルプレイヤー入力のみに基づいてモデルをトレーニングすることで、洗練されたエージェント動作の出現を観察する。
- 参考スコア(独自算出の注目度): 2.7205188669026277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video generation have spurred the development of world models capable of simulating 3D-consistent environments and interactions with static objects. However, a significant limitation remains in their ability to model dynamic, reactive agents that can intelligently influence and interact with the world. To address this gap, we introduce COMBAT, a real-time, action-controlled world model trained on the complex 1v1 fighting game Tekken 3. Our work demonstrates that diffusion models can successfully simulate a dynamic opponent that reacts to player actions, learning its behavior implicitly. Our approach utilizes a 1.2 billion parameter Diffusion Transformer, conditioned on latent representations from a deep compression autoencoder. We employ state-of-the-art techniques, including causal distillation and diffusion forcing, to achieve real-time inference. Crucially, we observe the emergence of sophisticated agent behavior by training the model solely on single-player inputs, without any explicit supervision for the opponent's policy. Unlike traditional imitation learning methods, which require complete action labels, COMBAT learns effectively from partially observed data to generate responsive behaviors for a controllable Player 1. We present an extensive study and introduce novel evaluation methods to benchmark this emergent agent behavior, establishing a strong foundation for training interactive agents within diffusion-based world models.
- Abstract(参考訳): 映像生成の最近の進歩は、3D一貫性のある環境と静的物体との相互作用をシミュレートできる世界モデルの開発に拍車をかけた。
しかしながら、世界に対してインテリジェントに影響を与え、相互作用できる動的で反応性のあるエージェントをモデル化する能力には、大きな制限が残っている。
このギャップに対処するために、複雑な1v1格闘ゲーム『テッケン3』で訓練されたリアルタイムアクション制御世界モデル『COMBAT』を紹介する。
我々の研究は、拡散モデルがプレイヤーの行動に反応する動的相手をシミュレートし、その振る舞いを暗黙的に学習できることを実証している。
提案手法では、ディープ圧縮オートエンコーダの潜在表現を条件とした12億のパラメータ拡散変換器を用いる。
我々は, 因果蒸留や拡散強制を含む最先端技術を用いて, リアルタイムな推論を実現する。
重要なことは、対戦者の方針を明示的に監督することなく、シングルプレイヤー入力のみに基づいてモデルを訓練することで、洗練されたエージェント動作の出現を観察することである。
完全なアクションラベルを必要とする従来の模倣学習法とは異なり、COMBATは部分的に観察されたデータから効果的に学習し、制御可能なプレイヤー1に対して応答的な動作を生成する。
本稿では,この創発的エージェントの挙動を評価するための新しい評価手法を提案し,拡散に基づく世界モデルにおける対話的エージェントのトレーニングのための強力な基盤を確立する。
関連論文リスト
- Agent2World: Learning to Generate Symbolic World Models via Adaptive Multi-Agent Feedback [51.22403664895878]
Agent2Worldは、強力な推論時ワールドモデル生成を実現するツール拡張マルチエージェントフレームワークである。
また、マルチエージェントフィードバックの生成を基盤にすることで、教師付き微調整のためのデータエンジンとしても機能する。
論文 参考訳(メタデータ) (2025-12-26T18:54:14Z) - StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation [56.996371714721995]
高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。
私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。
提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
論文 参考訳(メタデータ) (2025-10-06T17:37:24Z) - DUMB and DUMBer: Is Adversarial Training Worth It in the Real World? [15.469010487781931]
敵の例は小さく、しばしば、愚かな機械学習モデルのために作られた、知覚不能な摂動である。
侵入攻撃(英語: Evasion attack)とは、入力がテスト時に誤分類を引き起こすように修正される敵攻撃の一種であり、その伝達性のために特に不快である。
本稿では,DUMB法の基礎の上に構築された攻撃フレームワークであるDUMBerを紹介し,敵の訓練したモデルの弾力性を評価する。
論文 参考訳(メタデータ) (2025-06-23T11:16:21Z) - Dyna-Think: Synergizing Reasoning, Acting, and World Model Simulation in AI Agents [57.35214204211501]
本稿では,AIエージェントの性能向上のための推論と行動を伴う内的世界モデルとプランニングを統合した思考フレームワークDyna-Thinkを提案する。
DITは、R1の思考プロセスを再構築し、提案された(計画された)行動に関連する世界モデルシミュレーションの実行に集中し、この再構成データを用いてポリシーを訓練する。
DDTは2段階のトレーニングプロセスを使用して、まず状態予測や批判生成といった目的を通じてエージェントの世界モデリング能力を改善し、次にポリシートレーニングを通じてエージェントのアクションを改善する。
論文 参考訳(メタデータ) (2025-05-31T00:10:18Z) - Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective [54.77404771454794]
拡散モデルを用いたマルチエージェント強化学習(MARL)のためのフレキシブルで堅牢な世界モデルを開発する。
本手法はDiffusion-Inspired Multi-Agent World Model (DIMA) を用いて,複数のマルチエージェント制御ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T09:11:38Z) - Vid2World: Crafting Video Diffusion Models to Interactive World Models [35.42362065437052]
我々は、トレーニング済みの動画拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチであるVid2Worldを紹介する。
本手法は,高機能な映像拡散モデルをインタラクティブな世界モデルに再利用するための,スケーラブルで効果的な経路を提供する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [65.85335291827086]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Mimicking To Dominate: Imitation Learning Strategies for Success in
Multiagent Competitive Games [13.060023718506917]
我々は、対戦者の次の動きを予測するための新しいマルチエージェント模倣学習モデルを開発する。
また、模倣学習モデルとポリシートレーニングを組み合わせた、新しいマルチエージェント強化学習アルゴリズムを1つのトレーニングプロセスに導入する。
実験結果から,本手法は既存のマルチエージェントRLアルゴリズムと比較して性能が優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-20T07:30:13Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - Variational Autoencoders for Opponent Modeling in Multi-Agent Systems [9.405879323049659]
マルチエージェントシステムは、共有環境における複数のエージェントの相互作用から生じる複雑な振る舞いを示す。
本研究は,マルチエージェントシステムにおけるエージェントの制御に関心を持ち,ポリシーを定めているエージェントとのインタラクションをうまく学習する。
他のエージェント(反対者)の振る舞いをモデル化することは、システム内のエージェントの相互作用を理解するのに不可欠である。
論文 参考訳(メタデータ) (2020-01-29T13:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。