Fugu-MT 論文翻訳(概要): InSpatio-WorldFM: An Open-Source Real-Time Generative Frame Model

論文の概要: InSpatio-WorldFM: An Open-Source Real-Time Generative Frame Model

arxiv url: http://arxiv.org/abs/2603.11911v1
Date: Thu, 12 Mar 2026 13:28:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:26.104778
Title: InSpatio-WorldFM: An Open-Source Real-Time Generative Frame Model
Title（参考訳）: InSpatio-WorldFM: オープンソースのリアルタイム生成フレームモデル
Authors: InSpatio Team, Xiaoyu Zhang, Weihong Pan, Zhichao Ye, Jialin Liu, Yipeng Chen, Nan Wang, Xiaojun Xiang, Weijian Xie, Yifu Wang, Haoyu Ji, Siji Pan, Zhewen Le, Jing Guo, Xianbin Liu, Donghui Shen, Ziqiang Zhao, Haomin Liu, Guofeng Zhang,
Abstract要約: InSpatio-WorldFMは空間知能のためのオープンソースのリアルタイムフレームモデルである。 InSpatio-WorldFMはフレームベースのパラダイムを採用し、各フレームを独立に生成し、低レイテンシのリアルタイム空間推論を可能にする。
参考スコア（独自算出の注目度）: 17.421965971185134
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present InSpatio-WorldFM, an open-source real-time frame model for spatial intelligence. Unlike video-based world models that rely on sequential frame generation and incur substantial latency due to window-level processing, InSpatio-WorldFM adopts a frame-based paradigm that generates each frame independently, enabling low-latency real-time spatial inference. By enforcing multi-view spatial consistency through explicit 3D anchors and implicit spatial memory, the model preserves global scene geometry while maintaining fine-grained visual details across viewpoint changes. We further introduce a progressive three-stage training pipeline that transforms a pretrained image diffusion model into a controllable frame model and finally into a real-time generator through few-step distillation. Experimental results show that InSpatio-WorldFM achieves strong multi-view consistency while supporting interactive exploration on consumer-grade GPUs, providing an efficient alternative to traditional video-based world models for real-time world simulation.
Abstract（参考訳）: InSpatio-WorldFMは空間知能のためのオープンソースのリアルタイムフレームモデルである。 InSpatio-WorldFMは、シーケンシャルなフレーム生成とウィンドウレベルの処理によるかなりのレイテンシを必要とするビデオベースのワールドモデルとは異なり、フレームベースのパラダイムを採用し、各フレームを独立して生成し、低レイテンシのリアルタイム空間推論を可能にする。多視点空間の一貫性を明示的な3次元アンカーと暗黙的な空間記憶によって強制することにより、視点の変化をまたいだ細かな視覚的詳細を維持しながら、グローバルなシーン形状を保存できる。さらに,事前学習した画像拡散モデルを制御可能なフレームモデルに変換し,数ステップの蒸留により実時間生成する,プログレッシブな3段階学習パイプラインを導入する。実験結果から,InSpatio-WorldFMはコンシューマグレードのGPU上でのインタラクティブな探索をサポートしながら,強力なマルチビュー一貫性を実現し,リアルタイム世界シミュレーションのための従来のビデオベースワールドモデルに代わる効率的な代替手段を提供することがわかった。

関連論文リスト

RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文参考訳（メタデータ） (2026-02-24T08:41:40Z)
TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文参考訳（メタデータ） (2025-12-31T18:31:46Z)
Learning Spatio-Temporal Feature Representations for Video-Based Gaze Estimation [50.05866669110754]
映像に基づく視線推定手法は、複数の画像フレームから人間の視線の本質的な時間的ダイナミクスを捉えることを目的としている。本稿では、CNNバックボーンと専用のチャンネルアテンションと自己注意モジュールを組み合わせたモデルであるSpatio-Temporal Gaze Network(ST-Gaze)を提案する。そこで本研究では,ST-Gazeが個人固有の適応を伴わずとも最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2025-12-19T15:15:58Z)
DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-08T17:59:47Z)
Seeing World Dynamics in a Nutshell [132.79736435144403]
NutWorldはモノクロ動画をダイナミックな3D表現に変換するフレームワークである。我々は,NutWorldがリアルタイムにダウンストリームアプリケーションを実現しつつ,高忠実度ビデオ再構成品質を実現することを実証した。
論文参考訳（メタデータ） (2025-02-05T18:59:52Z)
EDELINE: Enhancing Memory in Diffusion-based World Models via Linear-Time Sequence Modeling [8.250616459360684]
EDELINEは、状態空間モデルと拡散モデルを統合する統一世界モデルアーキテクチャである。我々のアプローチは、視覚的に困難なAtari 100kタスク、メモリ要求ベンチマーク、3DファーストパーソンのViZDoom環境において、既存のベースラインよりも優れています。
論文参考訳（メタデータ） (2025-02-01T15:49:59Z)
FACTS: A Factored State-Space Framework For World Modelling [24.08175276756845]
本研究では,時空間空間モデリングのための新しいリカレントフレームワークであるtextbfFACTored textbfState-space (textbfFACTS) モデルを提案する。 FACTSフレームワークは、置換可能なメモリ表現を学習するルーティング機構を備えたグラフメモリを構築する。汎用的な世界モデリング設計にもかかわらず、常に最先端のモデルに勝ったり、マッチする。
論文参考訳（メタデータ） (2024-10-28T11:04:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。