論文の概要: Adapting a World Model for Trajectory Following in a 3D Game
- arxiv url: http://arxiv.org/abs/2504.12299v1
- Date: Wed, 16 Apr 2025 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:40:47.273428
- Title: Adapting a World Model for Trajectory Following in a 3D Game
- Title(参考訳): 3次元ゲームにおける軌跡追従世界モデルの適用
- Authors: Marko Tot, Shu Ishida, Abdelhak Lemkhenter, David Bignell, Pallavi Choudhury, Chris Lovett, Luis França, Matheus Ribeiro Furtado de Mendonça, Tarun Gupta, Darren Gehring, Sam Devlin, Sergio Valcarcel Macua, Raluca Georgescu,
- Abstract要約: Inverse Dynamics Models with different encoder and policy heads to trajectory following a modern 3D video game -- Bleeding Edge。
基準とエージェントの軌道との間の軌道偏差距離と第1の有意偏差点の両方を測定し,最適構成が選択した設定に依存することを示す。
以上の結果から, 多様なデータ設定において, ゼロから訓練したエンコーダを用いた GPT 方式のポリシヘッドが最良であり, GPT 方式のポリシヘッドを用いた DINOv2 エンコーダが低データ方式で最良となること, GPT 方式と GPT 方式のポリシヘッドの両方が最良であることがわかった。
- 参考スコア(独自算出の注目度): 8.154231798664009
- License:
- Abstract: Imitation learning is a powerful tool for training agents by leveraging expert knowledge, and being able to replicate a given trajectory is an integral part of it. In complex environments, like modern 3D video games, distribution shift and stochasticity necessitate robust approaches beyond simple action replay. In this study, we apply Inverse Dynamics Models (IDM) with different encoders and policy heads to trajectory following in a modern 3D video game -- Bleeding Edge. Additionally, we investigate several future alignment strategies that address the distribution shift caused by the aleatoric uncertainty and imperfections of the agent. We measure both the trajectory deviation distance and the first significant deviation point between the reference and the agent's trajectory and show that the optimal configuration depends on the chosen setting. Our results show that in a diverse data setting, a GPT-style policy head with an encoder trained from scratch performs the best, DINOv2 encoder with the GPT-style policy head gives the best results in the low data regime, and both GPT-style and MLP-style policy heads had comparable results when pre-trained on a diverse setting and fine-tuned for a specific behaviour setting.
- Abstract(参考訳): 模倣学習は、専門家の知識を活用してエージェントを訓練するための強力なツールであり、与えられた軌道を再現できることは、その不可欠な部分である。
現代の3Dビデオゲームのような複雑な環境では、分配シフトと確率性は単純なアクション再生以上の堅牢なアプローチを必要とする。
本研究では、異なるエンコーダとポリシーヘッドを持つ逆ダイナミクスモデル(IDM)を、現代の3DビデオゲームであるBleeding Edgeの軌跡に応用する。
さらに, エージェントの不確かさや不完全性に起因する分散シフトに対処する, 今後のアライメント戦略について検討する。
基準とエージェントの軌道との間の軌道偏差距離と第1の有意偏差点の両方を測定し,最適構成が選択した設定に依存することを示す。
その結果, 多様なデータ設定において, ゼロから訓練したエンコーダを持つGPT方式のポリシヘッドが最良であり, GPT方式のポリシヘッドを持つDINOv2エンコーダは低データ構造において最良であることがわかった。
関連論文リスト
- A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Versatile Navigation under Partial Observability via Value-guided Diffusion Policy [14.967107015417943]
部分観測可能条件下での2次元および3次元経路計画のための多目的拡散に基づくアプローチを提案する。
具体的には、価値誘導拡散政策は、まず様々な段階にわたって行動を予測する計画を生成する。
次に、状態推定を伴う微分可能なプランナーを用いて値関数を導出し、エージェントの探索とゴール探索の振る舞いを指示する。
論文 参考訳(メタデータ) (2024-04-01T19:52:08Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Neural Categorical Priors for Physics-Based Character Control [12.731392285646614]
運動の質と多様性を大幅に改善した物理に基づく文字制御のための新しい学習フレームワークを提案する。
提案手法は強化学習(RL)を用いて,非構造的なモーションクリップからのライフライクな動きを追跡し,模倣する。
本研究は,人型文字を用いた総合実験により,下流域の難易度の高い2つの課題,剣のシールドと2人のプレーヤーによるボクシングゲームについて検討する。
論文 参考訳(メタデータ) (2023-08-14T15:10:29Z) - 3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking [15.330384668966806]
最先端の3Dマルチオブジェクト追跡(MOT)アプローチは通常、Kalman Filterのような非学習モデルベースのアルゴリズムに依存している。
本稿では3DMOTFormerを提案する。この3D MOTフレームワークはトランスフォーマーアーキテクチャをベースに構築されている。
提案手法は, nuScenesバリデーションとテストスプリットでそれぞれ71.2%, AMOTA68.2%を達成している。
論文 参考訳(メタデータ) (2023-08-12T19:19:58Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Subequivariant Graph Reinforcement Learning in 3D Environments [34.875774768800966]
本稿では,3次元環境における変分グラフRL(Subequivariant Graph RL)という,形態に依存しないRLの新たなセットアップを提案する。
具体的には、まず3D空間でより実用的で挑戦的なベンチマークを新たに導入する。
拡張状態-作用空間上のポリシーを最適化するために,幾何対称性を注入することを提案する。
論文 参考訳(メタデータ) (2023-05-30T11:34:57Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - A Closer Look at Invariances in Self-supervised Pre-training for 3D
Vision [0.0]
3Dビジョンのための自己監督型事前訓練は近年研究の関心が高まっている。
本稿では,様々な事前学習手法を検証可能な統合フレームワークを提案する。
コントラスト学習を用いた3次元エンコーダと深度マップエンコーダを併用した簡易かつ効果的な事前学習法を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:44:15Z) - 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition [84.697097472401]
Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
論文 参考訳(メタデータ) (2020-12-29T21:40:38Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。