論文の概要: LONG3R: Long Sequence Streaming 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2507.18255v1
- Date: Thu, 24 Jul 2025 09:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.341853
- Title: LONG3R: Long Sequence Streaming 3D Reconstruction
- Title(参考訳): LONG3R:ロングシークエンスストリーミング3D再構成
- Authors: Zhuoguang Chen, Minghui Qin, Tianyuan Yuan, Zhe Liu, Hang Zhao,
- Abstract要約: Long3Rは、より長いシーケンス上でのマルチビュー3Dシーン再構成をストリーミングするために設計された新しいモデルである。
本モデルでは,新たな観測値の更新と更新を繰り返すことで,リアルタイム処理を実現している。
実験により、LONG3Rは、特に長いシーケンスにおいて、最先端のストリーミング手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 29.79885827038617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multi-view scene reconstruction have been significant, yet existing methods face limitations when processing streams of input images. These methods either rely on time-consuming offline optimization or are restricted to shorter sequences, hindering their applicability in real-time scenarios. In this work, we propose LONG3R (LOng sequence streaming 3D Reconstruction), a novel model designed for streaming multi-view 3D scene reconstruction over longer sequences. Our model achieves real-time processing by operating recurrently, maintaining and updating memory with each new observation. We first employ a memory gating mechanism to filter relevant memory, which, together with a new observation, is fed into a dual-source refined decoder for coarse-to-fine interaction. To effectively capture long-sequence memory, we propose a 3D spatio-temporal memory that dynamically prunes redundant spatial information while adaptively adjusting resolution along the scene. To enhance our model's performance on long sequences while maintaining training efficiency, we employ a two-stage curriculum training strategy, each stage targeting specific capabilities. Experiments demonstrate that LONG3R outperforms state-of-the-art streaming methods, particularly for longer sequences, while maintaining real-time inference speed. Project page: https://zgchen33.github.io/LONG3R/.
- Abstract(参考訳): 近年のマルチビューシーン再構築の進歩は目覚ましいが,既存の手法では入力画像のストリーム処理に制限がある。
これらの手法は、オフライン最適化に時間を要するか、短いシーケンスに制限されているかのいずれかであり、リアルタイムシナリオにおける適用性を妨げている。
本研究では,Long sequence streaming 3D Reconstruction(LONG3R)を提案する。
本モデルでは,新たな観測値の更新と更新を繰り返すことで,リアルタイム処理を実現している。
我々はまず、関連するメモリをフィルタリングするためにメモリゲーティング機構を使用し、新しい観測とともに、粗大な相互作用のための二重ソース精細デコーダに入力する。
長期記憶を効果的に捉えるために,シーンに沿った解像度を適応的に調整しながら,冗長な空間情報を動的に生成する3次元時空間メモリを提案する。
訓練効率を保ちながら長いシーケンスでのモデルの性能を向上させるために,各ステージが特定の機能をターゲットにした2段階のカリキュラム訓練戦略を採用する。
実験により、LONG3Rはリアルタイムの推論速度を維持しながら、特に長いシーケンスにおいて最先端のストリーミング手法よりも優れていることが示された。
プロジェクトページ: https://zgchen33.github.io/LONG3R/。
関連論文リスト
- mGRADE: Minimal Recurrent Gating Meets Delay Convolutions for Lightweight Sequence Modeling [0.5236468296934584]
mGRADEは、時間的1D-畳み込みと学習可能な間隔を統合したハイブリッドメモリシステムである。
我々は,mGRADEがマルチスケールの時間的特徴を効果的に分離し,保存することを示した。
これは、エッジにおけるメモリ制約付きマルチスケールの時間処理の効率的なソリューションとしてのmGRADEの約束を強調している。
論文 参考訳(メタデータ) (2025-07-02T15:44:35Z) - Long-Sequence Memory with Temporal Kernels and Dense Hopfield Functionals [0.0]
長い系列ホップフィールドメモリモデルに関する初期の研究に基づいて、時間的依存関係を組み込むために時間的カーナル$K(m, k)$を提案する。
本手法が映画フレームの保存とシーケンシャル検索に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-27T15:57:58Z) - LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering [68.93333348474988]
メモリ制約デバイス上での3次元ガウススプラッティングのための新しいレベル・オブ・ディーテール(LOD)法を提案する。
カメラ距離に基づいてガウスの最適部分集合を反復的に選択する。
本手法は,屋外(階層型3DGS)と屋内(Zip-NeRF)の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-29T06:50:57Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。
本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。
提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文 参考訳(メタデータ) (2024-06-11T12:03:57Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。