論文の概要: Learning to play: A Multimodal Agent for 3D Game-Play
- arxiv url: http://arxiv.org/abs/2510.16774v1
- Date: Sun, 19 Oct 2025 09:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.136488
- Title: Learning to play: A Multimodal Agent for 3D Game-Play
- Title(参考訳): 遊び方を学ぶ:3Dゲームプレイのためのマルチモーダルエージェント
- Authors: Yuguang Yue, Irakli Salia, Samuel Hunt, Christopher Green, Wenzhe Shi, Jonathan J Hunt,
- Abstract要約: まず,多種多様な3Dファーストパーソンゲームから収集した人間のゲームプレイのデータセットについて述べる。
得られたモデルが様々な3Dゲームをプレイし、テキスト入力に応答できることを示す。
- 参考スコア(独自算出の注目度): 2.5663091969883993
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We argue that 3-D first-person video games are a challenging environment for real-time multi-modal reasoning. We first describe our dataset of human game-play, collected across a large variety of 3-D first-person games, which is both substantially larger and more diverse compared to prior publicly disclosed datasets, and contains text instructions. We demonstrate that we can learn an inverse dynamics model from this dataset, which allows us to impute actions on a much larger dataset of publicly available videos of human game play that lack recorded actions. We then train a text-conditioned agent for game playing using behavior cloning, with a custom architecture capable of realtime inference on a consumer GPU. We show the resulting model is capable of playing a variety of 3-D games and responding to text input. Finally, we outline some of the remaining challenges such as long-horizon tasks and quantitative evaluation across a large set of games.
- Abstract(参考訳): 実時間マルチモーダル推論において,3次元一対一のビデオゲームは困難な環境である,と我々は主張する。
まず,従来の公開データセットよりも大幅に大きく,多種多様であり,テキスト命令も含んでいる3Dファーストパーソンゲームにまたがる人間のゲームプレイのデータセットについて述べる。
このデータセットから逆ダイナミクスモデルを学ぶことができ、記録されたアクションに欠ける人間のゲームプレイの公開ビデオのデータセットよりもはるかに大きなアクションをインプットすることができます。
次に,コンシューマGPU上でリアルタイムの推論が可能なカスタムアーキテクチャを用いて,行動クローンを用いたゲームプレイのためのテキスト条件エージェントをトレーニングする。
得られたモデルが様々な3Dゲームをプレイし、テキスト入力に応答できることを示す。
最後に,多くのゲームにおいて,長期的タスクや定量的評価などの課題について概説する。
関連論文リスト
- Pixels to Play: A Foundation Model for 3D Gameplay [4.380638021267298]
そこで,Pixels2Play-0.1(P2P0.1)を紹介した。
論文 参考訳(メタデータ) (2025-08-19T22:24:50Z) - Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトによるセグメンテーションを推論するための3次元推論セグメンテーションタスクを提案する。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,複数のオブジェクトのクエリを扱う新しい3D推論ネットワークMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - Diffusion Models are Efficient Data Generators for Human Mesh Recovery [55.37787289869703]
生成モデルにより生成された合成データはCGレンダリングデータと相補的であることを示す。
我々はHumanWildと呼ばれる最近の拡散モデルに基づく効率的なデータ生成パイプラインを提案する。
われわれの研究は、人間の3Dリカバリを現場に拡大するための道を開くかもしれない。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - Modeling Player Personality Factors from In-Game Behavior and Affective
Expression [17.01727448431269]
我々は,記録されたゲーム内行動から,一連のプレイヤパーソナリティアンケート値を予測する可能性を探る。
ロールプレイングゲーム『Fallout: New Vegas』のカスタマイズ版を60分間のゲームプレイで62人を対象に,定評ある7つの質問紙から,さまざまなパーソナリティ指標を予測した。
論文 参考訳(メタデータ) (2023-08-27T22:59:08Z) - Playing for 3D Human Recovery [88.91567909861442]
本研究では,自動注釈付けされた3Dグラウンド真理でビデオゲームをプレイすることで,膨大な人間のシーケンスを得る。
具体的には,GTA-Vゲームエンジンで生成された大規模3次元人文データセットであるGTA-Humanをコントリビュートする。
GTA-Humanで訓練された単純なフレームベースのベースラインは、より高度な手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-10-14T17:49:42Z) - Benchmarking End-to-End Behavioural Cloning on Video Games [5.863352129133669]
我々は,2010年以降の6ゲームを含む12のビデオゲームにおける行動クローンの一般適用性について検討した。
以上の結果から,これらのエージェントは生演奏では人間と一致しないが,基本力学やルールを学習できることがわかった。
また、データの質や、人間からのデータの記録が、人間の反射によって、状態-作用ミスマッチの対象になっていることを実証する。
論文 参考訳(メタデータ) (2020-04-02T13:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。