論文の概要: VIM-GS: Visual-Inertial Monocular Gaussian Splatting via Object-level Guidance in Large Scenes
- arxiv url: http://arxiv.org/abs/2509.06685v2
- Date: Tue, 09 Sep 2025 03:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.845459
- Title: VIM-GS: Visual-Inertial Monocular Gaussian Splatting via Object-level Guidance in Large Scenes
- Title(参考訳): VIM-GS:大規模シーンにおける物体レベルの誘導による視覚-慣性単分子ガウス散乱
- Authors: Shengkai Zhang, Yuhe Liu, Guanjun Wu, Jianhua He, Xinggang Wang, Mozi Chen, Kezhong Liu,
- Abstract要約: VIM-GSは、モノクロ画像を用いて、大きなシーンでノベルビュー合成(NVS)を行うフレームワークである。
本稿では,単分子RGB入力から高精細かつ高精度な深度画像を生成することを目的としている。
- 参考スコア(独自算出の注目度): 42.946624621872274
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: VIM-GS is a Gaussian Splatting (GS) framework using monocular images for novel-view synthesis (NVS) in large scenes. GS typically requires accurate depth to initiate Gaussian ellipsoids using RGB-D/stereo cameras. Their limited depth sensing range makes it difficult for GS to work in large scenes. Monocular images, however, lack depth to guide the learning and lead to inferior NVS results. Although large foundation models (LFMs) for monocular depth estimation are available, they suffer from cross-frame inconsistency, inaccuracy for distant scenes, and ambiguity in deceptive texture cues. This paper aims to generate dense, accurate depth images from monocular RGB inputs for high-definite GS rendering. The key idea is to leverage the accurate but sparse depth from visual-inertial Structure-from-Motion (SfM) to refine the dense but coarse depth from LFMs. To bridge the sparse input and dense output, we propose an object-segmented depth propagation algorithm that renders the depth of pixels of structured objects. Then we develop a dynamic depth refinement module to handle the crippled SfM depth of dynamic objects and refine the coarse LFM depth. Experiments using public and customized datasets demonstrate the superior rendering quality of VIM-GS in large scenes.
- Abstract(参考訳): VIM-GSは、モノクラー画像を用いたガウススティング(GS)フレームワークで、大きなシーンでノベルビュー合成(NVS)を行う。
GSは通常、RGB-D/ステレオカメラを使用してガウス楕円体を開始するために正確な深さを必要とする。
深度感知範囲が限られているため、GSが大規模なシーンで作業することは困難である。
しかし、単色画像は学習をガイドする深度に欠けており、NVSの結果は劣っている。
単眼深度推定のための大きな基礎モデル(LFM)が利用できるが、それらはクロスフレームの不整合、遠方のシーンの不正確さ、そして知覚的なテクスチャ・キューにおける曖昧さに悩まされている。
本稿では,単分子RGB入力から高精細かつ高精度な深度画像を生成することを目的としている。
鍵となるアイデアは、視覚-慣性構造-運動(SfM)からの正確だがスパースな深さを活用して、高密度だが粗い深さを LFM から洗練することである。
スパース入力と高密度出力をブリッジするために、構造化オブジェクトの画素の深さを描画するオブジェクト分割深度伝搬アルゴリズムを提案する。
次に, 動的物体の損傷したSfM深度を処理し, 粗いLFM深度を精製する動的深度改善モジュールを開発した。
公開およびカスタマイズされたデータセットを用いた実験では、大きなシーンでVIM-GSのレンダリング品質が優れていることが示されている。
関連論文リスト
- Revisiting Monocular 3D Object Detection with Depth Thickness Field [44.4805861813093]
モノクロ3次元物体検出のためのシーン・ツー・インスタンス深度適応ネットワークであるMonoDTFを提案する。
このフレームワークは主にSDR(Scene-Level Depth Retargeting)モジュールとISR(Instance-Level Spatial Refinement)モジュールで構成される。
後者は、インスタンスの誘導によりボクセル空間を洗練し、深さ厚さ場の3Dインスタンス認識能力を向上する。
論文 参考訳(メタデータ) (2024-12-26T10:51:50Z) - Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion [51.69876947593144]
奥行き完了のための既存の手法は、厳密に制約された設定で動作する。
単眼深度推定の進歩に触発されて,画像条件の深度マップ生成として深度補完を再構成した。
Marigold-DCは、単分子深度推定のための事前訓練された潜伏拡散モデルを構築し、試験時間ガイダンスとして深度観測を注入する。
論文 参考訳(メタデータ) (2024-12-18T00:06:41Z) - Depth-Relative Self Attention for Monocular Depth Estimation [23.174459018407003]
ディープニューラルネットワークは、RGB情報から抽出されたサイズ、日陰、テクスチャなど、さまざまな視覚的ヒントに依存している。
本稿では,相対深度を自己注意のガイダンスとして用いたRelative Depth Transformer (RED-T) という新しい深度推定モデルを提案する。
提案モデルでは, 単分子深度推定ベンチマークにおいて, 競合する結果が得られ, RGB情報に偏りが小さいことを示す。
論文 参考訳(メタデータ) (2023-04-25T14:20:31Z) - Crafting Monocular Cues and Velocity Guidance for Self-Supervised
Multi-Frame Depth Learning [22.828829870704006]
自己監督単分子法は、弱いテクスチャ面や反射物体の深度情報を効率的に学習することができる。
対照的に、マルチフレーム深度推定法は、マルチビューステレオの成功により、深度精度を向上させる。
我々は,MOVEDepthを提案する。MOn Eye cues と VE ガイダンスを利用して,多フレーム深度学習を改善する。
論文 参考訳(メタデータ) (2022-08-19T06:32:06Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection [57.969536140562674]
深度誘導型TRansformer(MonoDETR)を用いたモノクロ検出のための最初のDETRフレームワークについて紹介する。
我々は3Dオブジェクト候補を学習可能なクエリとして定式化し、オブジェクトとシーンの深度相互作用を行うための深度誘導デコーダを提案する。
モノクルイメージを入力としてKITTIベンチマークでは、MonoDETRは最先端のパフォーマンスを実現し、追加の深度アノテーションを必要としない。
論文 参考訳(メタデータ) (2022-03-24T19:28:54Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。