論文の概要: ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation
- arxiv url: http://arxiv.org/abs/2510.08551v1
- Date: Thu, 09 Oct 2025 17:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.297583
- Title: ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation
- Title(参考訳): ARTDECO:構造化シーン表現による高精細・高精細3次元再構成を目指して
- Authors: Guanghao Li, Kerui Ren, Linning Xu, Zhewen Zheng, Changjian Jiang, Xin Gao, Bo Dai, Jian Pu, Mulin Yu, Jiangmiao Pang,
- Abstract要約: ARTDECOは、フィードフォワードモデルの効率とSLAMベースのパイプラインの信頼性を組み合わせた統合フレームワークである。
ARTDECOはSLAMに匹敵するインタラクティブな性能、フィードフォワードシステムに類似した堅牢性、シーンごとの最適化に近い再現品質を提供する。
- 参考スコア(独自算出の注目度): 44.75113949778924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-the-fly 3D reconstruction from monocular image sequences is a long-standing challenge in computer vision, critical for applications such as real-to-sim, AR/VR, and robotics. Existing methods face a major tradeoff: per-scene optimization yields high fidelity but is computationally expensive, whereas feed-forward foundation models enable real-time inference but struggle with accuracy and robustness. In this work, we propose ARTDECO, a unified framework that combines the efficiency of feed-forward models with the reliability of SLAM-based pipelines. ARTDECO uses 3D foundation models for pose estimation and point prediction, coupled with a Gaussian decoder that transforms multi-scale features into structured 3D Gaussians. To sustain both fidelity and efficiency at scale, we design a hierarchical Gaussian representation with a LoD-aware rendering strategy, which improves rendering fidelity while reducing redundancy. Experiments on eight diverse indoor and outdoor benchmarks show that ARTDECO delivers interactive performance comparable to SLAM, robustness similar to feed-forward systems, and reconstruction quality close to per-scene optimization, providing a practical path toward on-the-fly digitization of real-world environments with both accurate geometry and high visual fidelity. Explore more demos on our project page: https://city-super.github.io/artdeco/.
- Abstract(参考訳): モノクロ画像シーケンスからのオンザフライ3D再構成は、コンピュータビジョンにおける長年の課題であり、リアルタイム、AR/VR、ロボット工学などの応用に欠かせない。
既存の方法は大きなトレードオフに直面している: シーンごとの最適化は高い忠実さをもたらすが、計算コストが高い。
本研究では、フィードフォワードモデルの効率とSLAMベースのパイプラインの信頼性を組み合わせた統合フレームワークARTDECOを提案する。
ARTDECOはポーズ推定と点予測に3Dファウンデーションモデルを使用し、マルチスケール特徴を構造化された3Dガウスに変換するガウスデコーダと組み合わせている。
スケールにおける忠実度と効率性を両立させるため,我々は,冗長性を低減しつつレンダリング忠実度を改善するLoD対応レンダリング戦略を用いた階層型ガウス表現を設計する。
8種類の屋内および屋外のベンチマーク実験により、ARTDECOはSLAMに匹敵するインタラクティブなパフォーマンス、フィードフォワードシステムに類似した堅牢性、シーンごとの最適化に近い再現品質を提供し、正確な幾何学と高い視覚的忠実さの両方で現実世界環境のオンザフライデジタル化に向けた実践的な道筋を提供することが示された。
より詳細なデモは、プロジェクトのページを参照してください。
関連論文リスト
- EfficientDepth: A Fast and Detail-Preserving Monocular Depth Estimation Model [1.4525559282354221]
我々は、トランスフォーマーアーキテクチャと軽量畳み込みデコーダを組み合わせた、EfficientDepthと呼ばれる新しいMDEシステムを導入する。
我々は,ハイパフォーマンスなMDE法を用いて,ラベル付き合成画像と実画像と,擬似ラベル付き実画像の組み合わせでモデルを訓練する。
一般的に使用される目的に加えて,LPIPSに基づく損失関数を導入し,ネットワークが詳細な深度マップを作成することを奨励する。
論文 参考訳(メタデータ) (2025-09-26T16:05:43Z) - HDiffTG: A Lightweight Hybrid Diffusion-Transformer-GCN Architecture for 3D Human Pose Estimation [21.823965837699166]
HDiffTGは、Transformer、Graph Convolutional Network(GCN)、拡散モデルを統一されたフレームワークに統合する、新しい3Dヒューマンポース(3DHCN)メソッドである。
軽量な設計を維持しながら,HDiffTGはポーズ推定精度とロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-05-07T09:26:37Z) - GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field [17.57215792490409]
GSFF-SLAMは3次元ガウススプラッティングに基づく新しい意味論的SLAMシステムである。
提案手法は, 様々な2次元先行情報, 特にスパース信号と雑音信号を用いた意味的再構成を支援する。
2D基底真理を利用する場合、GSFF-SLAMは95.03% mIoUで最先端のセマンティックセグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2025-04-28T01:21:35Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering [71.44349029439944]
最近の3次元ガウス散乱法は、最先端のレンダリング品質と速度を達成している。
局所的な3Dガウス分布にアンカーポイントを用いるScaffold-GSを導入する。
提案手法は,高品質なレンダリングを実現しつつ,冗長なガウスを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2023-11-30T17:58:57Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。