Fugu-MT 論文翻訳(概要): Diffusion Models Are Real-Time Game Engines

論文の概要: Diffusion Models Are Real-Time Game Engines

arxiv url: http://arxiv.org/abs/2408.14837v1
Date: Tue, 27 Aug 2024 07:46:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 14:45:05.202616
Title: Diffusion Models Are Real-Time Game Engines
Title（参考訳）: 拡散モデルはリアルタイムゲームエンジンである
Authors: Dani Valevski, Yaniv Leviathan, Moab Arar, Shlomi Fruchter,
Abstract要約: GameNGenは、高品質な長い軌道上の複雑な環境とのリアルタイム対話を可能にする最初のゲームエンジンである。次のフレーム予測は、20フレーム以上の1フレームでのランダムな29.4よりも優れている。人間のレイパーは、シミュレーションのクリップとショートクリップを区別するのにわずかに優れている。
参考スコア（独自算出の注目度）: 8.472305302767259
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present GameNGen, the first game engine powered entirely by a neural model that enables real-time interaction with a complex environment over long trajectories at high quality. GameNGen can interactively simulate the classic game DOOM at over 20 frames per second on a single TPU. Next frame prediction achieves a PSNR of 29.4, comparable to lossy JPEG compression. Human raters are only slightly better than random chance at distinguishing short clips of the game from clips of the simulation. GameNGen is trained in two phases: (1) an RL-agent learns to play the game and the training sessions are recorded, and (2) a diffusion model is trained to produce the next frame, conditioned on the sequence of past frames and actions. Conditioning augmentations enable stable auto-regressive generation over long trajectories.
Abstract（参考訳）: 本稿では,ニューラルネットワークを駆使した初のゲームエンジンであるGameNGenについて紹介する。 GameNGenは、1つのTPU上で、従来のゲームDOOMを毎秒20フレーム以上でインタラクティブにシミュレートすることができる。次のフレーム予測は、損失のあるJPEG圧縮に匹敵する29.4のPSNRを達成する。人間のレイパーは、ゲームの短いクリップとシミュレーションのクリップを区別するランダムなチャンスよりもわずかに優れている。ゲームンゲンは,(1)RLエージェントがゲームを学習し,トレーニングセッションが記録され,(2)拡散モデルが学習されて,過去のフレームとアクションのシーケンスに基づいて次のフレームを生成する。コンディショニングの強化により、長い軌道上で安定した自己回帰生成が可能になる。

関連論文リスト

Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition [18.789597877579986]
Hunyuan-GameCraftは、ゲーム環境におけるハイダイナミックなインタラクティブなビデオ生成のための新しいフレームワークである。アクション制御をきめ細かいものにするため,標準キーボードとマウス入力を共有カメラ表現空間に統合する。本稿では,ゲームシーン情報を保存しながら,映像シーケンスを自動回帰的に拡張するハイブリッド履歴条件学習手法を提案する。
論文参考訳（メタデータ） (2025-06-20T17:50:37Z)
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文参考訳（メタデータ） (2025-06-09T17:59:55Z)
Model as a Game: On Numerical and Spatial Consistency for Generative Games [117.36098212829766]
本稿では,モデル・アズ・ア・ゲーム(MaaG)のメカニズムを十分に構築した上で,モデル・アズ・ア・ゲーム(MaaG)を真に構成するものを探るため,生成ゲームのパラダイムを再考する。 DiTアーキテクチャに基づいて,(1) LogicNetを統合してイベントトリガを決定する数値モジュール,(2) 探索領域のマップを維持する空間モジュール,(2) 生成中の位置情報を検索して連続性を確保する,という2つの特殊なモジュールを設計する。
論文参考訳（メタデータ） (2025-03-27T05:46:15Z)
From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文参考訳（メタデータ） (2024-12-10T18:59:50Z)
Playable Game Generation [22.17100581717806]
本稿では,ゲームデータ生成,自動回帰型DiT拡散モデル,プレイヤビリティに基づく評価フレームワークなどを含むemphPlayGenを提案する。 PlayGenはリアルタイムインタラクションを実現し、十分な視覚的品質を確保し、正確なインタラクティブなメカニクスシミュレーションを提供する。
論文参考訳（メタデータ） (2024-12-01T16:53:02Z)
UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文参考訳（メタデータ） (2024-06-03T10:51:10Z)
HumMUSS: Human Motion Understanding using State Space Models [6.821961232645209]
本稿では,最近の状態空間モデルの発展にともなう,人間の動作理解構築のための新しいアテンションフリーモデルを提案する。私たちのモデルはオフラインとリアルタイムの両方のアプリケーションをサポートします。リアルタイムの逐次予測では、このモデルはトランスフォーマーベースのアプローチよりもメモリ効率が高く、数倍高速である。
論文参考訳（メタデータ） (2024-04-16T19:59:21Z)
Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文参考訳（メタデータ） (2023-03-23T17:43:17Z)
Transformers are Sample Efficient World Models [1.9444242128493845]
我々は、離散自己エンコーダと自己回帰変換器からなる世界モデルで学習するデータ効率のエージェントIRISを紹介する。 Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
論文参考訳（メタデータ） (2022-09-01T17:03:07Z)
STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文参考訳（メタデータ） (2021-07-15T02:53:11Z)
DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。 DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文参考訳（メタデータ） (2021-04-30T15:30:05Z)
Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文参考訳（メタデータ） (2021-03-18T15:12:06Z)
Neural Game Engine: Accurate learning of generalizable forward models from pixels [0.0]
本稿では,ピクセルから直接モデルを学習する手段として,ニューラルゲームエンジンを紹介する。 10の決定論的汎用ビデオゲームAIゲームの結果は、競争力のあるパフォーマンスを示している。
論文参考訳（メタデータ） (2020-03-23T20:04:55Z)
Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文参考訳（メタデータ） (2019-03-01T15:40:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。