論文の概要: Pixels to Play: A Foundation Model for 3D Gameplay
- arxiv url: http://arxiv.org/abs/2508.14295v1
- Date: Tue, 19 Aug 2025 22:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.284694
- Title: Pixels to Play: A Foundation Model for 3D Gameplay
- Title(参考訳): Pixels to Play: 3Dゲームプレイの基礎モデル
- Authors: Yuguang Yue, Chris Green, Samuel Hunt, Irakli Salia, Wenzhe Shi, Jonathan J Hunt,
- Abstract要約: そこで,Pixels2Play-0.1(P2P0.1)を紹介した。
- 参考スコア(独自算出の注目度): 4.380638021267298
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce Pixels2Play-0.1 (P2P0.1), a foundation model that learns to play a wide range of 3D video games with recognizable human-like behavior. Motivated by emerging consumer and developer use cases - AI teammates, controllable NPCs, personalized live-streamers, assistive testers - we argue that an agent must rely on the same pixel stream available to players and generalize to new titles with minimal game-specific engineering. P2P0.1 is trained end-to-end with behavior cloning: labeled demonstrations collected from instrumented human game-play are complemented by unlabeled public videos, to which we impute actions via an inverse-dynamics model. A decoder-only transformer with auto-regressive action output handles the large action space while remaining latency-friendly on a single consumer GPU. We report qualitative results showing competent play across simple Roblox and classic MS-DOS titles, ablations on unlabeled data, and outline the scaling and evaluation steps required to reach expert-level, text-conditioned control.
- Abstract(参考訳): そこで,Pixels2Play-0.1(P2P0.1)を紹介した。
AIチームメイト、コントロール可能なNPC、パーソナライズされたライブストリーム、アシストテスタなど、新興のコンシューマと開発者のユースケースによって動機付けられたエージェントは、プレイヤーが利用可能な同じピクセルストリームに依存し、ゲーム固有の最小限のエンジニアリングで新しいタイトルに一般化する必要がある、と私たちは主張する。
P2P0.1は行動クローニングによってエンドツーエンドに訓練されており、計測された人間のゲームプレイから収集されたラベル付きデモは、ラベルなしの公開ビデオによって補完される。
自動回帰アクション出力を備えたデコーダのみのトランスフォーマーは、単一のコンシューマGPU上でレイテンシフレンドリな状態を維持しながら、大きなアクションスペースを処理する。
簡単なRobloxや古典的なMS-DOSのタイトルにまたがる有能なプレイ、ラベルなしデータの短縮、エキスパートレベルのテキストコンディショナブルな制御を実現するために必要なスケーリングと評価の手順について、質的な結果を報告する。
関連論文リスト
- Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。
ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。
実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:59:06Z) - SoccerDiffusion: Toward Learning End-to-End Humanoid Robot Soccer from Gameplay Recordings [2.572390511592254]
SoccerDiffusionは、ヒューマノイドロボットサッカーのエンドツーエンド制御ポリシーを学ぶためのトランスフォーマーベースの拡散モデルである。
組み込みプラットフォーム上でリアルタイムな推論を可能にするため,蒸留技術を採用している。
本研究は,シミュレーションおよび物理ロボット上での複雑な動作挙動を再現するモデルの有効性を実証するものである。
論文 参考訳(メタデータ) (2025-04-29T14:21:08Z) - SynPlay: Importing Real-world Diversity for a Synthetic Human Dataset [19.32308498024933]
SynPlay(シンセティック・プレイグラウンド)は,人間の外見の多様性を現実世界にもたらすことを目的とした,新しい人工人間データセットである。
これまでの作品では見られなかった多様性のレベルを達成するために、現実的な人間の動きとポーズという2つの要素に焦点を当てる。
モデルトレーニングにSynPlayを使用することで,人間の検出とセグメンテーションのための既存の合成データセットよりも精度が向上することを示す。
論文 参考訳(メタデータ) (2024-08-21T17:58:49Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - Playing for 3D Human Recovery [88.91567909861442]
本研究では,自動注釈付けされた3Dグラウンド真理でビデオゲームをプレイすることで,膨大な人間のシーケンスを得る。
具体的には,GTA-Vゲームエンジンで生成された大規模3次元人文データセットであるGTA-Humanをコントリビュートする。
GTA-Humanで訓練された単純なフレームベースのベースラインは、より高度な手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-10-14T17:49:42Z) - Benchmarking End-to-End Behavioural Cloning on Video Games [5.863352129133669]
我々は,2010年以降の6ゲームを含む12のビデオゲームにおける行動クローンの一般適用性について検討した。
以上の結果から,これらのエージェントは生演奏では人間と一致しないが,基本力学やルールを学習できることがわかった。
また、データの質や、人間からのデータの記録が、人間の反射によって、状態-作用ミスマッチの対象になっていることを実証する。
論文 参考訳(メタデータ) (2020-04-02T13:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。