論文の概要: Online Competitive Information Gathering for Partially Observable Trajectory Games
- arxiv url: http://arxiv.org/abs/2506.01927v1
- Date: Mon, 02 Jun 2025 17:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.680214
- Title: Online Competitive Information Gathering for Partially Observable Trajectory Games
- Title(参考訳): 部分的に観察可能な軌道ゲームのためのオンライン競争情報収集
- Authors: Mel Krusniak, Hang Xu, Parker Palermo, Forrest Laine,
- Abstract要約: ゲーム理論エージェントは、相手に関する情報を最適に収集する計画を立てなければならない。
我々は、軌道空間における競合情報収集行動を認めるPOSGの有限履歴/水平改良を定式化する。
これらのゲームにおいて,状態空間の粒子ベース推定を活用し,グラデーションプレイを行う合理的な軌道計画を計算するためのオンライン手法を提案する。
- 参考スコア(独自算出の注目度): 24.25139588281181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Game-theoretic agents must make plans that optimally gather information about their opponents. These problems are modeled by partially observable stochastic games (POSGs), but planning in fully continuous POSGs is intractable without heavy offline computation or assumptions on the order of belief maintained by each player. We formulate a finite history/horizon refinement of POSGs which admits competitive information gathering behavior in trajectory space, and through a series of approximations, we present an online method for computing rational trajectory plans in these games which leverages particle-based estimations of the joint state space and performs stochastic gradient play. We also provide the necessary adjustments required to deploy this method on individual agents. The method is tested in continuous pursuit-evasion and warehouse-pickup scenarios (alongside extensions to $N > 2$ players and to more complex environments with visual and physical obstacles), demonstrating evidence of active information gathering and outperforming passive competitors.
- Abstract(参考訳): ゲーム理論エージェントは、相手に関する情報を最適に収集する計画を立てなければならない。
これらの問題は、部分的に観測可能な確率ゲーム(POSG)によってモデル化されるが、完全な連続的なPOSGでの計画は、各プレイヤーが保持する信念の順序に関する重大なオフライン計算や仮定なしでは難解である。
我々は、軌道空間における競合情報収集行動を認めるPOSGの有限履歴/水平改良を定式化し、一連の近似を通して、これらのゲームにおいて合理的な軌道計画を計算するオンライン手法を提案する。
また,本手法を個々のエージェントに展開するために必要な調整も行う。
この方法は、連続的な追尾回避と倉庫のピックアップシナリオ(N > 2$プレーヤーへの拡張と、視覚的および身体的障害を伴うより複雑な環境への拡張)でテストされ、アクティブな情報収集の証拠を実証し、受動的競争相手を上回っている。
関連論文リスト
- Model as a Game: On Numerical and Spatial Consistency for Generative Games [117.36098212829766]
本稿では,モデル・アズ・ア・ゲーム(MaaG)のメカニズムを十分に構築した上で,モデル・アズ・ア・ゲーム(MaaG)を真に構成するものを探るため,生成ゲームのパラダイムを再考する。
DiTアーキテクチャに基づいて,(1) LogicNetを統合してイベントトリガを決定する数値モジュール,(2) 探索領域のマップを維持する空間モジュール,(2) 生成中の位置情報を検索して連続性を確保する,という2つの特殊なモジュールを設計する。
論文 参考訳(メタデータ) (2025-03-27T05:46:15Z) - TranSPORTmer: A Holistic Approach to Trajectory Understanding in Multi-Agent Sports [28.32714256545306]
TranSportmerは、これらすべてのタスクに対処できる統合トランスフォーマーベースのフレームワークである。
時間的ダイナミクスと社会的相互作用を同変的に効果的に捉える。
プレイヤー予測、プレイヤー予測・インプット、ボール推論、ボールインプットにおいて、最先端のタスク固有モデルより優れている。
論文 参考訳(メタデータ) (2024-10-23T11:35:44Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:10:04Z) - Data-Scarce Identification of Game Dynamics via Sum-of-Squares Optimization [29.568222003322344]
マルチプレイヤーの正規形式ゲームにおけるゲームダイナミクスを識別するためのサイドインフォーム支援回帰(SIAR)フレームワークを提案する。
SIARは、SOS(sum-of-squares)最適化を用いて解決され、その結果、システムの真の力学に確実に収束する近似の階層となる。
SIARフレームワークは,未知のシステムがカオスであっても,通常のゲーム,広く知られているゲームダイナミクスのファミリー,強力なベンチマークの範囲で,プレーヤの挙動を正確に予測する。
論文 参考訳(メタデータ) (2023-07-13T09:14:48Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Improving Bidding and Playing Strategies in the Trick-Taking game Wizard
using Deep Q-Networks [0.0]
別々の入札・プレイフェーズを持つトリックテイクゲームWizardは、2つのインターリーブされた部分的に観測可能なマルコフ決定プロセス(POMDP)によってモデル化される。
ディープQネットワークワークス(DQN)は、非定常環境の課題に対処できる自己改善エージェントの強化に使用される。
訓練されたDQNエージェントは、ランダムなベースラインと規則に基づく非対称性の両方を残して、自己プレイの66%から87%の精度を達成する。
論文 参考訳(メタデータ) (2022-05-27T08:59:42Z) - ShuttleNet: Position-aware Fusion of Rally Progress and Player Styles
for Stroke Forecasting in Badminton [18.524164548051417]
本稿では,ターンベースのスポーツにおいて,どのストロークをどこで返すべきかを客観的に判断することに焦点を当てる。
本稿では,ラリープログレスとプレーヤスタイルの融合フレームワーク(ShuttleNet)を提案する。
論文 参考訳(メタデータ) (2021-12-02T08:14:23Z) - Deep Latent Competition: Learning to Race Using Visual Control Policies
in Latent Space [63.57289340402389]
Deep Latent Competition (DLC) は、想像力の自己プレイを通じて、競合する視覚制御ポリシーを学ぶ強化学習アルゴリズムである。
想像すると、セルフプレイは現実世界でコストのかかるサンプル生成を削減し、潜在表現は観測次元で計画を優雅にスケールできる。
論文 参考訳(メタデータ) (2021-02-19T09:00:29Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。