論文の概要: LiveStre4m: Feed-Forward Live Streaming of Novel Views from Unposed Multi-View Video
- arxiv url: http://arxiv.org/abs/2604.06740v1
- Date: Wed, 08 Apr 2026 07:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.382598
- Title: LiveStre4m: Feed-Forward Live Streaming of Novel Views from Unposed Multi-View Video
- Title(参考訳): LiveStre4m: 未投稿のマルチビュービデオから新しいビューのフィードフォワードライブストリーミング
- Authors: Pedro Quesado, Erkut Akdag, Yasaman Kashefbahrami, Willem Menu, Egor Bondarev,
- Abstract要約: ライブストリーミング 未投稿のマルチビュービデオからのノベルビュー合成は、幅広いアプリケーションにおいてオープンな課題である。
本稿では,未提示のマルチビュー入力からリアルタイムNVSのフィードフォワードモデルである,視点映像のライブストリーミング手法(LiveStre4m)を提案する。
提案手法は,2つの同期されていない入力ストリームを用いて,時間的に一貫したビデオストリーミングを実現する。
- 参考スコア(独自算出の注目度): 5.5263731799099425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Live-streaming Novel View Synthesis (NVS) from unposed multi-view video remains an open challenge in a wide range of applications. Existing methods for dynamic scene representation typically require ground-truth camera parameters and involve lengthy optimizations ($\approx 2.67$s), which makes them unsuitable for live streaming scenarios. To address this issue, we propose a novel viewpoint video live-streaming method (LiveStre4m), a feed-forward model for real-time NVS from unposed sparse multi-view inputs. LiveStre4m introduces a multi-view vision transformer for keyframe 3D scene reconstruction coupled with a diffusion-transformer interpolation module that ensures temporal consistency and stable streaming. In addition, a Camera Pose Predictor module is proposed to efficiently estimate both poses and intrinsics directly from RGB images, removing the reliance on known camera calibration information. Our approach enables temporally consistent novel-view video streaming in real-time using as few as two synchronized unposed input streams. LiveStre4m attains an average reconstruction time of $ 0.07$s per-frame at $ 1024 \times 768$ resolution, outperforming the optimization-based dynamic scene representation methods by orders of magnitude in runtime. These results demonstrate that LiveStre4m makes real-time NVS streaming feasible in practical settings, marking a substantial step toward deployable live novel-view synthesis systems. Code available at: https://github.com/pedro-quesado/LiveStre4m
- Abstract(参考訳): 未提示のマルチビュービデオからのNVS(Nove-streaming Novel View Synthesis)は、幅広いアプリケーションにおいてオープンな課題である。
動的シーン表現の既存の手法は、通常、地味なカメラパラメータを必要とし、長い最適化(\approx 2.67$s)を含むため、ライブストリーミングのシナリオには適さない。
そこで本研究では,未提示のマルチビュー入力からリアルタイムNVSのフィードフォワードモデルである,視点映像のライブストリーミング手法(LiveStre4m)を提案する。
LiveStre4mは、キーフレーム3Dシーン再構築のためのマルチビュービジョントランスフォーマーと、時間的一貫性と安定したストリーミングを保証する拡散変圧器補間モジュールを導入している。
さらに、RGB画像から直接ポーズと内在性の両方を効率的に推定し、既知のカメラキャリブレーション情報に依存しないカメラポーズ予測モジュールを提案する。
提案手法は,2つの同期されていない入力ストリームを用いて,時間的に一貫したビデオストリーミングを実現する。
LiveStre4mは1024 \times 768$で1フレームあたり平均0.07$sのリビルド時間を実現し、最適化ベースの動的シーン表現メソッドを実行時の桁数で上回っている。
これらの結果から、LiveStre4mはリアルタイムNVSストリーミングを実用的な設定で実現可能であることが示され、ライブノベルビュー合成システムの実現に向けた大きな一歩となった。
コード https://github.com/pedro-quesado/LiveStre4m
関連論文リスト
- Dynamic Gaussian Scene Reconstruction from Unsynchronized Videos [31.54046494140498]
マルチビュー映像再構成はコンピュータビジョンにおいて重要な役割を担い、映画製作、バーチャルリアリティー、モーション分析に応用できる。
同期のないマルチビュービデオから高品質な4DGS再構成を実現するための新しい時間的アライメント戦略を提案する。
論文 参考訳(メタデータ) (2025-11-14T11:20:43Z) - 4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming [52.76837132019501]
本稿では,新しい階層型4D圧縮フレームワークである4DGCProを紹介する。
4DGCProは、プログレッシブボリュームビデオストリーミングによるリアルタイムモバイルデコーディングと高品質なレンダリングを容易にする。
エンドツーエンドのエントロピー最適化トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:38:17Z) - Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models [83.76517697509156]
本稿では、疎視映像を入力として高忠実度視点合成の課題に対処する。
本研究では, 4次元拡散モデルの視時整合性を高めるために, 反復的スライディング・デノナイジング法を提案する。
提案手法は,高品質で一貫したノベルビュー映像を合成し,既存の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-17T17:59:17Z) - LiveVLM: Efficient Online Video Understanding via Streaming-Oriented KV Cache and Retrieval [13.891391928767195]
LiveVLMは、ストリーミング、オンラインビデオ理解、リアルタイムインタラクションに特化したトレーニング不要のフレームワークである。
LiveVLMはストリーミング指向のKVキャッシュを構築し、ビデオストリームをリアルタイムで処理し、長期のビデオの詳細を保持し、冗長なKVを排除する。
新しい質問が提案されると、LiveVLMは、短期と長期の両方の視覚情報を効率的に取得するオンラインの質問回答プロセスを導入する。
論文 参考訳(メタデータ) (2025-05-21T08:47:15Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Controlling Space and Time with Diffusion Models [34.7002868116714]
4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。
我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)のデータを混合してトレーニングすることができる。
4DiMは、直感的なメートルスケールカメラポーズ制御を備えた最初のNVS方式である。
論文 参考訳(メタデータ) (2024-07-10T17:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。