論文の概要: Diffusion Models Are Real-Time Game Engines
- arxiv url: http://arxiv.org/abs/2408.14837v1
- Date: Tue, 27 Aug 2024 07:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 14:45:05.202616
- Title: Diffusion Models Are Real-Time Game Engines
- Title(参考訳): 拡散モデルはリアルタイムゲームエンジンである
- Authors: Dani Valevski, Yaniv Leviathan, Moab Arar, Shlomi Fruchter,
- Abstract要約: GameNGenは、高品質な長い軌道上の複雑な環境とのリアルタイム対話を可能にする最初のゲームエンジンである。
次のフレーム予測は、20フレーム以上の1フレームでのランダムな29.4よりも優れている。
人間のレイパーは、シミュレーションのクリップとショートクリップを区別するのにわずかに優れている。
- 参考スコア(独自算出の注目度): 8.472305302767259
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present GameNGen, the first game engine powered entirely by a neural model that enables real-time interaction with a complex environment over long trajectories at high quality. GameNGen can interactively simulate the classic game DOOM at over 20 frames per second on a single TPU. Next frame prediction achieves a PSNR of 29.4, comparable to lossy JPEG compression. Human raters are only slightly better than random chance at distinguishing short clips of the game from clips of the simulation. GameNGen is trained in two phases: (1) an RL-agent learns to play the game and the training sessions are recorded, and (2) a diffusion model is trained to produce the next frame, conditioned on the sequence of past frames and actions. Conditioning augmentations enable stable auto-regressive generation over long trajectories.
- Abstract(参考訳): 本稿では,ニューラルネットワークを駆使した初のゲームエンジンであるGameNGenについて紹介する。
GameNGenは、1つのTPU上で、従来のゲームDOOMを毎秒20フレーム以上でインタラクティブにシミュレートすることができる。
次のフレーム予測は、損失のあるJPEG圧縮に匹敵する29.4のPSNRを達成する。
人間のレイパーは、ゲームの短いクリップとシミュレーションのクリップを区別するランダムなチャンスよりもわずかに優れている。
ゲームンゲンは,(1)RLエージェントがゲームを学習し,トレーニングセッションが記録され,(2)拡散モデルが学習されて,過去のフレームとアクションのシーケンスに基づいて次のフレームを生成する。
コンディショニングの強化により、長い軌道上で安定した自己回帰生成が可能になる。
関連論文リスト
- From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Playable Game Generation [22.17100581717806]
本稿では,ゲームデータ生成,自動回帰型DiT拡散モデル,プレイヤビリティに基づく評価フレームワークなどを含むemphPlayGenを提案する。
PlayGenはリアルタイムインタラクションを実現し、十分な視覚的品質を確保し、正確なインタラクティブなメカニクスシミュレーションを提供する。
論文 参考訳(メタデータ) (2024-12-01T16:53:02Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - HumMUSS: Human Motion Understanding using State Space Models [6.821961232645209]
本稿では,最近の状態空間モデルの発展にともなう,人間の動作理解構築のための新しいアテンションフリーモデルを提案する。
私たちのモデルはオフラインとリアルタイムの両方のアプリケーションをサポートします。
リアルタイムの逐次予測では、このモデルはトランスフォーマーベースのアプローチよりもメモリ効率が高く、数倍高速である。
論文 参考訳(メタデータ) (2024-04-16T19:59:21Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Neural Game Engine: Accurate learning of generalizable forward models
from pixels [0.0]
本稿では,ピクセルから直接モデルを学習する手段として,ニューラルゲームエンジンを紹介する。
10の決定論的汎用ビデオゲームAIゲームの結果は、競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-23T20:04:55Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。