論文の概要: Streaming 4D Visual Geometry Transformer
- arxiv url: http://arxiv.org/abs/2507.11539v1
- Date: Tue, 15 Jul 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.218608
- Title: Streaming 4D Visual Geometry Transformer
- Title(参考訳): 4次元映像幾何学変換器のストリーム化
- Authors: Dong Zhuo, Wenzhao Zheng, Jiahe Guo, Yuqi Wu, Jie Zhou, Jiwen Lu,
- Abstract要約: 入力シーケンスをオンラインで処理するストリーミング4Dビジュアルジオメトリ変換器を提案する。
時間的因果的注意を用いて、履歴キーと値を暗黙記憶としてキャッシュし、より効率的な長期4D再構成を可能にする。
各種4次元幾何知覚ベンチマーク実験により,オンラインシナリオにおける推論速度の向上が示された。
- 参考スコア(独自算出の注目度): 63.99937807085461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceiving and reconstructing 4D spatial-temporal geometry from videos is a fundamental yet challenging computer vision task. To facilitate interactive and real-time applications, we propose a streaming 4D visual geometry transformer that shares a similar philosophy with autoregressive large language models. We explore a simple and efficient design and employ a causal transformer architecture to process the input sequence in an online manner. We use temporal causal attention and cache the historical keys and values as implicit memory to enable efficient streaming long-term 4D reconstruction. This design can handle real-time 4D reconstruction by incrementally integrating historical information while maintaining high-quality spatial consistency. For efficient training, we propose to distill knowledge from the dense bidirectional visual geometry grounded transformer (VGGT) to our causal model. For inference, our model supports the migration of optimized efficient attention operator (e.g., FlashAttention) from the field of large language models. Extensive experiments on various 4D geometry perception benchmarks demonstrate that our model increases the inference speed in online scenarios while maintaining competitive performance, paving the way for scalable and interactive 4D vision systems. Code is available at: https://github.com/wzzheng/StreamVGGT.
- Abstract(参考訳): ビデオから4次元空間時間幾何学を認識・再構成することは、基本的なコンピュータビジョンの課題である。
対話的かつリアルタイムなアプリケーションを容易にするために,自動回帰型大規模言語モデルと類似の哲学を共用したストリーミング4Dビジュアルジオメトリトランスフォーマを提案する。
単純で効率的な設計を探求し、因果変換器アーキテクチャを用いて入力シーケンスをオンラインに処理する。
時間的因果的注意を用いて、履歴キーと値を暗黙記憶としてキャッシュし、より効率的な長期4D再構成を可能にする。
この設計は、高品質な空間整合性を維持しつつ、歴史情報を漸進的に統合することで、リアルタイム4D再構成を処理できる。
効率的なトレーニングのために,高密度な双方向視覚的接地変換器(VGGT)から因果モデルへの知識の抽出を提案する。
推論のために、我々のモデルは、最適化された効率的なアテンション演算子(例えば、FlashAttention)を、大規模言語モデルの分野から移行するのをサポートする。
様々な4次元幾何知覚ベンチマークの大規模な実験により、我々のモデルは、競争性能を維持しながら、オンラインシナリオにおける推論速度を向上し、スケーラブルでインタラクティブな4次元視覚システムへの道を開いた。
コードは、https://github.com/wzzheng/StreamVGGT.comで入手できる。
関連論文リスト
- 4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos [29.061337554486897]
動的シーン再構成のための4次元ガウス型トランスフォーマーモデルである4DGTを提案する。
4D Gaussian を誘導バイアスとして用い、4DGT は静的および動的成分を統一する。
我々のモデルでは64個のフレームを回転風で連続的に処理し、現場で一貫した4Dガウスを予測している。
論文 参考訳(メタデータ) (2025-06-09T17:59:59Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - Human4DiT: 360-degree Human Video Generation with 4D Diffusion Transformer [38.85054820740242]
1枚の画像から高品質でコヒーレントな人間ビデオを生成するための新しい手法を提案する。
本フレームワークは,グローバル相関を捉える拡散変圧器の強度と,正確な条件注入を行うCNNの強度を組み合わせたものである。
我々は,360度リアルでコヒーレントな人間のモーションビデオを合成する手法の能力を実証した。
論文 参考訳(メタデータ) (2024-05-27T17:53:29Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence
Understanding [20.79861588128133]
NSM4Dと呼ばれる汎用的なオンライン4D知覚パラダイムを導入する。
NSM4Dは、既存の4Dバックボーンに適応可能なプラグアンドプレイ戦略として機能する。
屋内および屋外環境における各種オンライン知覚ベンチマークにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2023-10-12T13:42:49Z) - Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors
for Efficient and Robust 4D Reconstruction [43.60322886598972]
本稿では,点雲列からの4次元形状再構成の課題に焦点をあてる。
本稿では,クロスフレーム占有領域間の連続的変換関数を捉えることにより,人間の3次元形状の時間変化を学ぶための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2021-03-30T13:36:03Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。