論文の概要: Learning Controllable and Diverse Player Behaviors in Multi-Agent Environments
- arxiv url: http://arxiv.org/abs/2512.10835v1
- Date: Thu, 11 Dec 2025 17:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.48521
- Title: Learning Controllable and Diverse Player Behaviors in Multi-Agent Environments
- Title(参考訳): マルチエージェント環境における可制御・多人数プレイヤ行動の学習
- Authors: Atahan Cilan, Atay Özgövde,
- Abstract要約: 本稿では,人間のゲームプレイデータに頼らずに,制御可能かつ多様なプレイヤ動作を可能にする強化学習フレームワークを提案する。
我々はN次元連続空間におけるプレイヤーの行動を定義し、実際の人間のスタイルを表すサブセットを含む領域からターゲットの行動ベクトルを均一にサンプリングする。
単一のPPOベースのマルチエージェントポリシーは、再トレーニングすることなく、新しいまたは見えないプレイスタイルを再現することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a reinforcement learning framework that enables controllable and diverse player behaviors without relying on human gameplay data. Existing approaches often require large-scale player trajectories, train separate models for different player types, or provide no direct mapping between interpretable behavioral parameters and the learned policy, limiting their scalability and controllability. We define player behavior in an N-dimensional continuous space and uniformly sample target behavior vectors from a region that encompasses the subset representing real human styles. During training, each agent receives both its current and target behavior vectors as input, and the reward is based on the normalized reduction in distance between them. This allows the policy to learn how actions influence behavioral statistics, enabling smooth control over attributes such as aggressiveness, mobility, and cooperativeness. A single PPO-based multi-agent policy can reproduce new or unseen play styles without retraining. Experiments conducted in a custom multi-player Unity game show that the proposed framework produces significantly greater behavioral diversity than a win-only baseline and reliably matches specified behavior vectors across diverse targets. The method offers a scalable solution for automated playtesting, game balancing, human-like behavior simulation, and replacing disconnected players in online games.
- Abstract(参考訳): 本稿では,人間のゲームプレイデータに頼らずに,制御可能で多様なプレイヤー動作を可能にする強化学習フレームワークを提案する。
既存のアプローチでは、大規模なプレイヤーの軌跡、異なるプレイヤータイプのための別々のモデルを訓練したり、解釈可能な振る舞いパラメータと学習ポリシーを直接マッピングしたりすることなく、スケーラビリティと制御性を制限することがしばしば必要である。
我々はN次元連続空間におけるプレイヤーの行動を定義し、実際の人間のスタイルを表すサブセットを含む領域からターゲットの行動ベクトルを均一にサンプリングする。
トレーニング中、各エージェントは現在の行動ベクトルと対象行動ベクトルの両方を入力として受信し、報酬はそれらの間の距離の正規化による。
これにより、行動が行動統計にどのように影響するかを学ぶことができ、攻撃性、移動性、協調性などの属性を円滑に制御できる。
単一のPPOベースのマルチエージェントポリシーは、再トレーニングすることなく、新しいまたは見えないプレイスタイルを再現することができる。
カスタムマルチプレイヤーのUnityゲームで実施された実験により、提案フレームワークは、勝利のみのベースラインよりもはるかに大きな行動多様性を生み出し、多様な目標に対する特定の行動ベクトルと確実に一致していることが示された。
この方法は、自動プレイテスト、ゲームバランシング、ヒューマンライクな動作シミュレーション、オンラインゲームにおける切断されたプレイヤーを置き換えるためのスケーラブルなソリューションを提供する。
関連論文リスト
- Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents [56.25101378553328]
本稿では,汎用ゲームエージェントであるGame-TARSについて紹介する。
Game-TARSは500B以上のトークンで事前トレーニングされており、様々な軌跡とマルチモーダルデータがある。
実験により、Game-TARSは、オープンワールドMinecraftタスクにおける以前のソータモデルの約2倍の成功率を達成することが示された。
論文 参考訳(メタデータ) (2025-10-27T17:43:51Z) - A Multimodal Architecture for Endpoint Position Prediction in Team-based Multiplayer Games [42.059466998190224]
本稿では,動的時間地平線上での将来のプレーヤ位置の予測のためのマルチモーダルアーキテクチャを提案する。
このアーキテクチャは、動的ゲームデータだけでなく、画像入力、数値的特徴、カテゴリー的特徴を含むマルチモーダルゲーム状態を効率的に利用する。
論文 参考訳(メタデータ) (2025-07-28T09:51:49Z) - Generating Personas for Games with Multimodal Adversarial Imitation
Learning [47.70823327747952]
強化学習は、人間のレベルでゲームをすることができるエージェントを生産する上で、広く成功している。
強化学習を超えて進むことは、幅広い人間のプレイスタイルをモデル化するために必要である。
本稿では,プレイテストのための複数のペルソナポリシーを生成するための,新しい模倣学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T06:58:19Z) - Learnable Behavior Control: Breaking Atari Human World Records via Sample-Efficient Behavior Selection [80.35510218548693]
本稿では,LBC(Learable Behavioral Control)と呼ばれるフレームワークを提案する。
我々のエージェントは10077.52%の平均正規化スコアを達成し、1Bのトレーニングフレーム内で24人の世界記録を突破した。
論文 参考訳(メタデータ) (2023-05-09T08:00:23Z) - Pick Your Battles: Interaction Graphs as Population-Level Objectives for
Strategic Diversity [49.68758494467258]
我々は、集団内の個人がどのように相互作用するかを慎重に構造化することで、多様なエージェントの集団を構築する方法について研究する。
我々のアプローチは,エージェント間の情報の流れを制御するインタラクショングラフに基づいている。
マルチエージェント・トレーニングにおける多様性の重要性を証明し,様々な相互作用グラフを適用したゲームにおけるトレーニング・トラジェクトリ,多様性,パフォーマンスに与える影響を解析する。
論文 参考訳(メタデータ) (2021-10-08T11:29:52Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - Opponent Learning Awareness and Modelling in Multi-Objective Normal Form
Games [5.0238343960165155]
エージェントはシステム内の他のエージェントの振る舞いについて学ぶことが不可欠である。
本稿では,非線形ユーティリティとの多目的マルチエージェント相互作用に対する,このようなモデリングの効果について述べる。
論文 参考訳(メタデータ) (2020-11-14T12:35:32Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。