論文の概要: Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation
- arxiv url: http://arxiv.org/abs/2511.20714v1
- Date: Tue, 25 Nov 2025 01:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.780936
- Title: Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation
- Title(参考訳): Inferix:世界シミュレーションのためのブロック拡散に基づく次世代推論エンジン
- Authors: Inferix Team, Tianyu Feng, Yizeng Han, Jiahao He, Yuanyu He, Xi Lin, Teng Liu, Hanfeng Lu, Jiasheng Tang, Wei Wang, Zhiyuan Wang, Jichao Wu, Mingyang Yang, Yinghao Yu, Zeyu Zhang, Bohan Zhuang,
- Abstract要約: Inferixは、最適化された半自己回帰復号プロセスを通じて没入型世界合成を可能にする推論エンジンである。
Inferixはさらに、インタラクティブなビデオストリーミングとプロファイリングによる提供を強化し、リアルタイムのインタラクションと現実的なシミュレーションを可能にしている。
- 参考スコア(独自算出の注目度): 41.993197533574126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models serve as core simulators for fields such as agentic AI, embodied AI, and gaming, capable of generating long, physically realistic, and interactive high-quality videos. Moreover, scaling these models could unlock emergent capabilities in visual perception, understanding, and reasoning, paving the way for a new paradigm that moves beyond current LLM-centric vision foundation models. A key breakthrough empowering them is the semi-autoregressive (block-diffusion) decoding paradigm, which merges the strengths of diffusion and autoregressive methods by generating video tokens in block-applying diffusion within each block while conditioning on previous ones, resulting in more coherent and stable video sequences. Crucially, it overcomes limitations of standard video diffusion by reintroducing LLM-style KV Cache management, enabling efficient, variable-length, and high-quality generation. Therefore, Inferix is specifically designed as a next-generation inference engine to enable immersive world synthesis through optimized semi-autoregressive decoding processes. This dedicated focus on world simulation distinctly sets it apart from systems engineered for high-concurrency scenarios (like vLLM or SGLang) and from classic video diffusion models (such as xDiTs). Inferix further enhances its offering with interactive video streaming and profiling, enabling real-time interaction and realistic simulation to accurately model world dynamics. Additionally, it supports efficient benchmarking through seamless integration of LV-Bench, a new fine-grained evaluation benchmark tailored for minute-long video generation scenarios. We hope the community will work together to advance Inferix and foster world model exploration.
- Abstract(参考訳): 世界モデルは、エージェントAI、エンボディAI、ゲームといった分野のコアシミュレータとして機能し、長く、物理的にリアルで、インタラクティブな高品質なビデオを生成することができる。
さらに、これらのモデルをスケールすることで、視覚知覚、理解、推論における創発的な能力を解き放ち、現在のLLM中心のビジョン基盤モデルを超えて、新たなパラダイムの道を開くことができる。
それらを強化する重要なブレークスルーは、半自己回帰(ブロック拡散)デコーディングパラダイムであり、これは拡散と自己回帰の手法の長所をマージし、以前のブロックを条件付けながらブロック内でブロック適用拡散でビデオトークンを生成し、よりコヒーレントで安定したビデオシーケンスをもたらす。
重要なことは、LLMスタイルのKVキャッシュ管理を再導入することで、標準的なビデオ拡散の限界を克服し、効率的で可変長で高品質な生成を可能にする。
したがって、Inferixは、最適化された半自己回帰デコードプロセスを通じて没入型世界合成を可能にする次世代推論エンジンとして設計されている。
この世界シミュレーションに重点を置いているのは、高速シナリオ(vLLMやSGLangなど)のために設計されたシステムと、古典的なビデオ拡散モデル(xDiTsなど)とを明確に区別している。
Inferixはさらに、インタラクティブなビデオストリーミングとプロファイリングによる提供を強化し、リアルタイムのインタラクションとリアルなシミュレーションにより、世界のダイナミクスを正確にモデル化することができる。
さらにLV-Benchのシームレスな統合による効率的なベンチマークもサポートしている。
コミュニティが協力してInferixを前進させ、世界モデル探査を促進することを願っている。
関連論文リスト
- STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flows [35.05757953878183]
STARFlow-Vは、エンドツーエンドの学習、堅牢な因果予測、ネイティブな推定などの大きな利点を持つ、フローベースのビデオジェネレータの正規化である。
結果は,NFが高品質な自己回帰ビデオ生成が可能なことを示す最初の証拠となる。
論文 参考訳(メタデータ) (2025-11-25T16:27:58Z) - Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - LongScape: Advancing Long-Horizon Embodied World Models with Context-Aware MoE [16.561410415129778]
LongScapeは、チャンク内拡散とチャンク間自己回帰因果生成を組み合わせたハイブリッドフレームワークである。
私たちの中心となるイノベーションは、ロボットアクションのセマンティックコンテキストに基づいてビデオを分割するアクションガイド付き可変長チャンキングメカニズムです。
論文 参考訳(メタデータ) (2025-09-26T02:47:05Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - EVA: An Embodied World Model for Future Video Anticipation [30.721105710709008]
ビデオ生成モデルは将来の状態をシミュレートする上で大きな進歩を遂げており、擬似シナリオにおける世界シミュレータとしての可能性を示している。
既存のモデルは、しばしば堅牢な理解が欠如しており、マルチステップの予測を実行したり、アウト・オブ・ディストリビューション(OOD)シナリオを処理する能力を制限する。
本稿では,映像予測の強化を目的とした中間的推論手法であるリフレクション・オブ・ジェネレーション(RoG)を提案する。
論文 参考訳(メタデータ) (2024-10-20T18:24:00Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。