論文の概要: Diffusion Models Are Real-Time Game Engines
- arxiv url: http://arxiv.org/abs/2408.14837v2
- Date: Thu, 24 Apr 2025 03:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.965793
- Title: Diffusion Models Are Real-Time Game Engines
- Title(参考訳): 拡散モデルはリアルタイムゲームエンジンである
- Authors: Dani Valevski, Yaniv Leviathan, Moab Arar, Shlomi Fruchter,
- Abstract要約: ニューラルモデルのみで動く最初のゲームエンジンであるGameNGenを紹介します。
GameNGenはゲームプレイを抽出し、プレイ可能な環境を生成する。
次のフレーム予測は、損失のあるJPEG圧縮に匹敵する29.4のPSNRを達成する。
- 参考スコア(独自算出の注目度): 8.472305302767259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present GameNGen, the first game engine powered entirely by a neural model that also enables real-time interaction with a complex environment over long trajectories at high quality. When trained on the classic game DOOM, GameNGen extracts gameplay and uses it to generate a playable environment that can interactively simulate new trajectories. GameNGen runs at 20 frames per second on a single TPU and remains stable over extended multi-minute play sessions. Next frame prediction achieves a PSNR of 29.4, comparable to lossy JPEG compression. Human raters are only slightly better than random chance at distinguishing short clips of the game from clips of the simulation, even after 5 minutes of auto-regressive generation. GameNGen is trained in two phases: (1) an RL-agent learns to play the game and the training sessions are recorded, and (2) a diffusion model is trained to produce the next frame, conditioned on the sequence of past frames and actions. Conditioning augmentations help ensure stable auto-regressive generation over long trajectories, and decoder fine-tuning improves the fidelity of visual details and text.
- Abstract(参考訳): ニューラルモデルのみで動く最初のゲームエンジンであるGameNGenは、高品質な長い軌道上で複雑な環境とリアルタイムに対話することを可能にする。
古典的なゲームDOOMでトレーニングすると、GameNGenはゲームプレイを抽出し、新しい軌道をインタラクティブにシミュレートできるプレイ可能な環境を生成する。
GameNGenは1つのTPU上で毎秒20フレームで動作する。
次のフレーム予測は、損失のあるJPEG圧縮に匹敵する29.4のPSNRを達成する。
オートレグレッシブ・ジェネレーションから5分経っても、人間のレイパーはゲームの短いクリップとシミュレーションのクリップを区別する確率をわずかに上回っている。
ゲームンゲンは,(1)RLエージェントがゲームとトレーニングセッションを記録することを学習し,(2)拡散モデルを用いて,過去のフレームとアクションのシーケンスに基づいて次のフレームを生成する。
コンディショニングの強化は、長い軌道上での安定した自己回帰生成を保証するのに役立ち、デコーダの微調整により、視覚的詳細やテキストの忠実さが向上する。
関連論文リスト
- Model as a Game: On Numerical and Spatial Consistency for Generative Games [117.36098212829766]
本稿では,モデル・アズ・ア・ゲーム(MaaG)のメカニズムを十分に構築した上で,モデル・アズ・ア・ゲーム(MaaG)を真に構成するものを探るため,生成ゲームのパラダイムを再考する。
DiTアーキテクチャに基づいて,(1) LogicNetを統合してイベントトリガを決定する数値モジュール,(2) 探索領域のマップを維持する空間モジュール,(2) 生成中の位置情報を検索して連続性を確保する,という2つの特殊なモジュールを設計する。
論文 参考訳(メタデータ) (2025-03-27T05:46:15Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Playable Game Generation [22.17100581717806]
本稿では,ゲームデータ生成,自動回帰型DiT拡散モデル,プレイヤビリティに基づく評価フレームワークなどを含むemphPlayGenを提案する。
PlayGenはリアルタイムインタラクションを実現し、十分な視覚的品質を確保し、正確なインタラクティブなメカニクスシミュレーションを提供する。
論文 参考訳(メタデータ) (2024-12-01T16:53:02Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - HumMUSS: Human Motion Understanding using State Space Models [6.821961232645209]
本稿では,最近の状態空間モデルの発展にともなう,人間の動作理解構築のための新しいアテンションフリーモデルを提案する。
私たちのモデルはオフラインとリアルタイムの両方のアプリケーションをサポートします。
リアルタイムの逐次予測では、このモデルはトランスフォーマーベースのアプローチよりもメモリ効率が高く、数倍高速である。
論文 参考訳(メタデータ) (2024-04-16T19:59:21Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Transformers are Sample Efficient World Models [1.9444242128493845]
我々は、離散自己エンコーダと自己回帰変換器からなる世界モデルで学習するデータ効率のエージェントIRISを紹介する。
Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
論文 参考訳(メタデータ) (2022-09-01T17:03:07Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Neural Game Engine: Accurate learning of generalizable forward models
from pixels [0.0]
本稿では,ピクセルから直接モデルを学習する手段として,ニューラルゲームエンジンを紹介する。
10の決定論的汎用ビデオゲームAIゲームの結果は、競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-23T20:04:55Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。