論文の概要: Diffusion Models Are Real-Time Game Engines
- arxiv url: http://arxiv.org/abs/2408.14837v1
- Date: Tue, 27 Aug 2024 07:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 14:45:05.202616
- Title: Diffusion Models Are Real-Time Game Engines
- Title(参考訳): 拡散モデルはリアルタイムゲームエンジンである
- Authors: Dani Valevski, Yaniv Leviathan, Moab Arar, Shlomi Fruchter,
- Abstract要約: GameNGenは、高品質な長い軌道上の複雑な環境とのリアルタイム対話を可能にする最初のゲームエンジンである。
次のフレーム予測は、20フレーム以上の1フレームでのランダムな29.4よりも優れている。
人間のレイパーは、シミュレーションのクリップとショートクリップを区別するのにわずかに優れている。
- 参考スコア(独自算出の注目度): 8.472305302767259
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present GameNGen, the first game engine powered entirely by a neural model that enables real-time interaction with a complex environment over long trajectories at high quality. GameNGen can interactively simulate the classic game DOOM at over 20 frames per second on a single TPU. Next frame prediction achieves a PSNR of 29.4, comparable to lossy JPEG compression. Human raters are only slightly better than random chance at distinguishing short clips of the game from clips of the simulation. GameNGen is trained in two phases: (1) an RL-agent learns to play the game and the training sessions are recorded, and (2) a diffusion model is trained to produce the next frame, conditioned on the sequence of past frames and actions. Conditioning augmentations enable stable auto-regressive generation over long trajectories.
- Abstract(参考訳): 本稿では,ニューラルネットワークを駆使した初のゲームエンジンであるGameNGenについて紹介する。
GameNGenは、1つのTPU上で、従来のゲームDOOMを毎秒20フレーム以上でインタラクティブにシミュレートすることができる。
次のフレーム予測は、損失のあるJPEG圧縮に匹敵する29.4のPSNRを達成する。
人間のレイパーは、ゲームの短いクリップとシミュレーションのクリップを区別するランダムなチャンスよりもわずかに優れている。
ゲームンゲンは,(1)RLエージェントがゲームを学習し,トレーニングセッションが記録され,(2)拡散モデルが学習されて,過去のフレームとアクションのシーケンスに基づいて次のフレームを生成する。
コンディショニングの強化により、長い軌道上で安定した自己回帰生成が可能になる。
関連論文リスト
- UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - HumMUSS: Human Motion Understanding using State Space Models [6.821961232645209]
本稿では,最近の状態空間モデルの発展にともなう,人間の動作理解構築のための新しいアテンションフリーモデルを提案する。
私たちのモデルはオフラインとリアルタイムの両方のアプリケーションをサポートします。
リアルタイムの逐次予測では、このモデルはトランスフォーマーベースのアプローチよりもメモリ効率が高く、数倍高速である。
論文 参考訳(メタデータ) (2024-04-16T19:59:21Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Transformers are Sample Efficient World Models [1.9444242128493845]
我々は、離散自己エンコーダと自己回帰変換器からなる世界モデルで学習するデータ効率のエージェントIRISを紹介する。
Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
論文 参考訳(メタデータ) (2022-09-01T17:03:07Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Neural Game Engine: Accurate learning of generalizable forward models
from pixels [0.0]
本稿では,ピクセルから直接モデルを学習する手段として,ニューラルゲームエンジンを紹介する。
10の決定論的汎用ビデオゲームAIゲームの結果は、競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-23T20:04:55Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。