論文の概要: OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution
- arxiv url: http://arxiv.org/abs/2603.02134v1
- Date: Mon, 02 Mar 2026 17:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.016021
- Title: OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution
- Title(参考訳): OnlineX: アクティブ・ツー・安定状態の進化によるオンライン3D再構築と理解
- Authors: Chong Xia, Fangfu Liu, Yule Wang, Yize Pang, Yueqi Duan,
- Abstract要約: フィードフォワードフレームワークであるOnlineXを導入し、ストリーミング画像のみを用いて3次元の視覚的外観と言語フィールドをオンライン的に再構築する。
我々のフレームワークは、メモリ状態を専用のアクティブな状態と永続的な安定な状態に分離し、その後、前者からの情報を結合して後者に融合させ、忠実性と安定性の両方を達成する。
- 参考スコア(独自算出の注目度): 34.8105632078785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generalizable 3D Gaussian Splatting (3DGS) have enabled rapid 3D scene reconstruction within seconds, eliminating the need for per-scene optimization. However, existing methods primarily follow an offline reconstruction paradigm, lacking the capacity for continuous reconstruction, which limits their applicability to online scenarios such as robotics and VR/AR. In this paper, we introduce OnlineX, a feed-forward framework that reconstructs both 3D visual appearance and language fields in an online manner using only streaming images. A key challenge in online formulation is the cumulative drift issue, which is rooted in the fundamental conflict between two opposing roles of the memory state: an active role that constantly refreshes to capture high-frequency local geometry, and a stable role that conservatively accumulates and preserves the long-term global structure. To address this, we introduce a decoupled active-to-stable state evolution paradigm. Our framework decouples the memory state into a dedicated active state and a persistent stable state, and then cohesively fuses the information from the former into the latter to achieve both fidelity and stability. Moreover, we jointly model visual appearance and language fields and incorporate an implicit Gaussian fusion module to enhance reconstruction quality. Experiments on mainstream datasets demonstrate that our method consistently outperforms prior work in novel view synthesis and semantic understanding, showcasing robust performance across input sequences of varying lengths with real-time inference speed.
- Abstract(参考訳): 一般化可能な3Dガウススティング(3DGS)の最近の進歩により、数秒で高速な3Dシーン再構成が可能となり、シーンごとの最適化の必要性がなくなった。
しかし、既存の手法は、主にオフラインの再構築パラダイムに従っており、連続的な再構築能力に欠けており、ロボット工学やVR/ARといったオンラインシナリオへの適用性が制限されている。
本稿では,ストリーミング画像のみを用いて3次元視覚と言語フィールドの両方をオンライン的に再構築するフィードフォワードフレームワークであるOnlineXを紹介する。
オンラインの定式化における重要な課題は累積ドリフト問題であり、これは2つの対立するメモリ状態の基本的な対立に根ざしている。
これを解決するために、分離されたアクティブ・ツー・スタブルな状態進化パラダイムを導入する。
我々のフレームワークは、メモリ状態を専用のアクティブな状態と永続的な安定な状態に分離し、その後、前者からの情報を結合して後者に融合し、忠実性と安定性を両立させる。
さらに、視覚的外観と言語分野を共同でモデル化し、暗黙的なガウス融合モジュールを組み込んで再構成品質を向上させる。
主流データセットを用いた実験により,本手法は新規なビュー合成と意味理解において,従来よりも常に優れており,実時間推論速度の異なる様々な長さの入力シーケンスに対して頑健な性能を示す。
関連論文リスト
- StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - RecurGS: Interactive Scene Modeling via Discrete-State Recurrent Gaussian Fusion [21.761449995572757]
RecurGSは、離散ガウスのシーン状態を単一の進化的表現に統合する、再帰的な融合フレームワークである。
酸素化可視性融合モジュールは、安定領域を固定しつつ、新しく観察された領域を選択的に包含する。
当社のフレームワークは,更新効率を大幅に向上した高品質な再構築を実現する。
論文 参考訳(メタデータ) (2025-12-20T14:53:22Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - UniSplat: Unified Spatio-Temporal Fusion via 3D Latent Scaffolds for Dynamic Driving Scene Reconstruction [26.278318116942526]
We present UniSplat, a feed-forward framework that learns robust dynamic scene reconstruction through unified latent-temporal fusion。
実世界のデータセットの実験では、UniSplatが新しい視点で最先端の合成を実現し、オリジナルカメラのカバレッジ外の視点に対して堅牢で高品質なレンダリングを提供することを示した。
論文 参考訳(メタデータ) (2025-11-06T17:49:39Z) - LUMA-RAG: Lifelong Multimodal Agents with Provably Stable Streaming Alignment [0.0]
Retrieval-Augmented Generationは、検証可能な証拠で大規模言語モデルのアウトプットを基礎づける主要なパラダイムとして登場した。
LUMA-RAGは,3つの重要なイノベーションを特徴とする,生涯にわたるマルチモーダルエージェントアーキテクチャである。
実験では、堅牢なテキスト・ツー・イメージ検索(Recall@10 = 0.94)、製品量子化オフロードによる優雅なパフォーマンス劣化、安定したオーディオ・ツー・イメージランキング(Safe@1 = 1.0)が示されている。
論文 参考訳(メタデータ) (2025-11-04T08:47:12Z) - OnlineSplatter: Pose-Free Online 3D Reconstruction for Free-Moving Objects [58.38338242973447]
OnlineSplatterは、RGBフレームから直接高品質でオブジェクト中心の3Dガウシアンを生成する新しいフレームワークである。
提案手法は,第1フレームを用いて再構成をアンカーし,高密度ガウス原始体を通して対象表現を漸進的に洗練する。
我々のコアコントリビューションは、潜伏した外見幾何学キーと明示的な方向キーを組み合わせたデュアルキーメモリモジュールです。
論文 参考訳(メタデータ) (2025-10-23T14:37:25Z) - PRGCN: A Graph Memory Network for Cross-Sequence Pattern Reuse in 3D Human Pose Estimation [18.771349697842947]
本稿では、パターン検索と適応の問題としてポーズ推定を形式化する新しいフレームワークであるパターン再利用グラフ変換ネットワーク(PRGCN)を紹介する。
PRGCNのコアとなるグラフメモリバンクは、リレーショナルグラフとして符号化された一連のコンパクトなポーズプロトタイプを学習し、格納する。
PRGCNは,それぞれ37.1mm,13.4mmのMPJPEを達成し,クロスドメインの一般化能力の向上を図っている。
論文 参考訳(メタデータ) (2025-10-22T11:12:07Z) - Puppeteer: Rig and Animate Your 3D Models [105.11046762553121]
Puppeteerは、さまざまな3Dオブジェクトの自動リギングとアニメーションの両方に対処する包括的なフレームワークである。
本システムはまず, 自己回帰変換器を用いて, 可塑性骨格構造を推定する。
その後、注意に基づくアーキテクチャにより、皮膚の重量を推定する。
論文 参考訳(メタデータ) (2025-08-14T17:59:31Z) - VEIGAR: View-consistent Explicit Inpainting and Geometry Alignment for 3D object Removal [2.8954284913103367]
新しいビュー合成(NVS)と3D生成は編集タスクを大幅に改善した。
生成プロセス全体を通して横断的な一貫性を維持するために、メソッドは通常、デュアルストラテジーフレームワークを使用してこの問題に対処する。
VEIGARは,初期再構成フェーズに依存することなく,既存の手法より優れた計算効率の高いフレームワークである。
論文 参考訳(メタデータ) (2025-06-13T11:31:44Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。