論文の概要: Scalable Generative Game Engine: Breaking the Resolution Wall via Hardware-Algorithm Co-Design
- arxiv url: http://arxiv.org/abs/2602.00608v1
- Date: Sat, 31 Jan 2026 08:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.284052
- Title: Scalable Generative Game Engine: Breaking the Resolution Wall via Hardware-Algorithm Co-Design
- Title(参考訳): スケーラブル・ジェネレーティブ・ゲームエンジン:ハードウェア・アルゴリズムの共同設計による分解壁の破壊
- Authors: Wei Zeng, Xuchen Li, Ruili Feng, Zhen Liu, Fengwei An, Jian Zhao,
- Abstract要約: 我々は、スケーラブルなTextitHardware-Algorithm共設計フレームワークを導入することにより、生成モデルと高分解能ニューラルネットワークのギャップを埋める。
このシステムは, それぞれ26.4 FPSと48.3 FPSの流体を供給し, 有効遅延は2.7msである。
- 参考スコア(独自算出の注目度): 17.941176878609337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time generative game engines represent a paradigm shift in interactive simulation, promising to replace traditional graphics pipelines with neural world models. However, existing approaches are fundamentally constrained by the ``Memory Wall,'' restricting practical deployments to low resolutions (e.g., $64 \times 64$). This paper bridges the gap between generative models and high-resolution neural simulations by introducing a scalable \textit{Hardware-Algorithm Co-Design} framework. We identify that high-resolution generation suffers from a critical resource mismatch: the World Model is compute-bound while the Decoder is memory-bound. To address this, we propose a heterogeneous architecture that intelligently decouples these components across a cluster of AI accelerators. Our system features three core innovations: (1) an asymmetric resource allocation strategy that optimizes throughput under sequence parallelism constraints; (2) a memory-centric operator fusion scheme that minimizes off-chip bandwidth usage; and (3) a manifold-aware latent extrapolation mechanism that exploits temporal redundancy to mask latency. We validate our approach on a cluster of programmable AI accelerators, enabling real-time generation at $720 \times 480$ resolution -- a $50\times$ increase in pixel throughput over prior baselines. Evaluated on both continuous 3D racing and discrete 2D platformer benchmarks, our system delivers fluid 26.4 FPS and 48.3 FPS respectively, with an amortized effective latency of 2.7 ms. This work demonstrates that resolving the ``Memory Wall'' via architectural co-design is not merely an optimization, but a prerequisite for enabling high-fidelity, responsive neural gameplay.
- Abstract(参考訳): リアルタイム生成ゲームエンジンはインタラクティブシミュレーションのパラダイムシフトであり、従来のグラフィックスパイプラインをニューラルワールドモデルに置き換えることを約束している。
しかしながら、既存のアプローチは基本的に‘メモリウォール’によって制約されており、実際のデプロイメントを低解像度(例えば、644 \times 64$)に制限している。
本稿では、拡張性のある \textit{Hardware-Algorithm Co-Design} フレームワークを導入することにより、生成モデルと高分解能ニューラルネットワークのギャップを埋める。
Decoderがメモリバウンダリであるのに対して、World Modelは計算バウンダリである。
これを解決するために、AIアクセラレーターのクラスタ間で、これらのコンポーネントをインテリジェントに分離する異種アーキテクチャを提案する。
本システムでは,(1)シーケンス並列性制約下でスループットを最適化する非対称資源割当戦略,(2)オフチップ帯域幅の使用を最小化するメモリ中心演算子融合方式,(3)時間的冗長性を利用して遅延をマスクする多様体対応潜在外挿機構,の3点を特徴とする。
プログラム可能なAIアクセラレータのクラスタに対するアプローチを検証することで、リアルタイム生成を720 \times 480$ resolution -- a 50\times$ 以前のベースラインよりもピクセルスループットが向上します。
連続3Dレースと離散2Dプラットフォームベンチマークの両方で評価され、我々のシステムは流体26.4 FPSと48.3 FPSをそれぞれ提供し、有効遅延は2.7msである。この研究はアーキテクチャ共設計による「メモリウォール」の解決が単なる最適化ではなく、高忠実で応答性の高いニューラルゲームプレイを実現するための前提条件であることを実証する。
関連論文リスト
- AutoNeural: Co-Designing Vision-Language Models for NPU Inference [24.05617280495125]
AutoNeuralは整数のみの推論のために設計されたNPUネイティブなVLMアーキテクチャである。
我々は、標準のViTエンコーダを、深く分離可能な畳み込みを利用したMobileNetV5スタイルのバックボーンに置き換える。
提案手法は,ビジョンエンコーダの量子化誤差を最大7倍,エンドツーエンドのレイテンシを従来のベースラインに比べて14倍削減する。
論文 参考訳(メタデータ) (2025-12-02T16:45:25Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - Accelerating 3D Gaussian Splatting with Neural Sorting and Axis-Oriented Rasterization [14.87046071090259]
3D Gaussian Splatting (3DGS) は、最近、高品質で効率的なビュー合成において大きな注目を集めている。
アルゴリズムの性能は素晴らしいが、リソースに制約のあるデバイスのリアルタイムレンダリングは、厳しい電力と地域予算のために依然として大きな課題だ。
論文 参考訳(メタデータ) (2025-06-08T10:14:54Z) - iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation [49.8026360054331]
iFlameはメッシュ生成のためのトランスフォーマーベースの新しいネットワークアーキテクチャである。
本稿では,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリービング自己回帰メッシュ生成フレームワークを提案する。
提案するインターリービングフレームワークは,計算効率と生成性能を効果的にバランスさせることが示唆された。
論文 参考訳(メタデータ) (2025-03-20T19:10:37Z) - Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。
非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。
非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文 参考訳(メタデータ) (2025-02-03T13:09:21Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。