論文の概要: Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2404.03658v1
- Date: Thu, 4 Apr 2024 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 13:42:53.576076
- Title: Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning
- Title(参考訳): 隣人を知る:空間的視覚ランゲージ推論による単一視点再構成の改善
- Authors: Rui Li, Tobias Fischer, Mattia Segu, Marc Pollefeys, Luc Van Gool, Federico Tombari,
- Abstract要約: KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。
その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。
我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
- 参考スコア(独自算出の注目度): 119.99066522299309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recovering the 3D scene geometry from a single view is a fundamental yet ill-posed problem in computer vision. While classical depth estimation methods infer only a 2.5D scene representation limited to the image plane, recent approaches based on radiance fields reconstruct a full 3D representation. However, these methods still struggle with occluded regions since inferring geometry without visual observation requires (i) semantic knowledge of the surroundings, and (ii) reasoning about spatial context. We propose KYN, a novel method for single-view scene reconstruction that reasons about semantic and spatial context to predict each point's density. We introduce a vision-language modulation module to enrich point features with fine-grained semantic information. We aggregate point representations across the scene through a language-guided spatial attention mechanism to yield per-point density predictions aware of the 3D semantic context. We show that KYN improves 3D shape recovery compared to predicting density for each 3D point in isolation. We achieve state-of-the-art results in scene and object reconstruction on KITTI-360, and show improved zero-shot generalization compared to prior work. Project page: https://ruili3.github.io/kyn.
- Abstract(参考訳): 単一の視点から3Dシーンの幾何学を復元することは、コンピュータビジョンの基本的な問題である。
古典的な深度推定法では、画像平面に限定した2.5次元シーン表現しか推定できないが、放射場に基づく最近のアプローチでは、完全な3次元表現が再構成されている。
しかし、これらの手法は、視覚的観察を必要としない幾何を推定するため、隠蔽領域といまだに苦労している。
一 周囲の意味知識、及び
(二)空間的文脈を推論すること。
KYNは,各点の密度を予測するために,意味的・空間的文脈を考慮した一視点シーン再構築手法を提案する。
細かな意味情報を持つ点特徴を豊かにするための視覚言語変調モジュールを提案する。
言語誘導型空間アテンション機構によってシーン全体にわたってポイント表現を集約し,3次元意味的文脈を意識したポイントごとの密度予測を行う。
その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。
我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
プロジェクトページ: https://ruili3.github.io/kyn.com
関連論文リスト
- MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。
暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。
次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文 参考訳(メタデータ) (2024-06-12T17:51:53Z) - OpenOcc: Open Vocabulary 3D Scene Reconstruction via Occupancy Representation [30.76201018651464]
従来の3Dシーン理解アプローチでは、高価なラベル付き3Dデータセットを使用して、単一のタスクに対してモデルのトレーニングと監視を行う。
我々は,3次元シーン再構成とオープン語彙理解をニューラルラディアンスフィールドで統合する新しいフレームワークOpenOccを提案する。
提案手法は3次元シーン理解タスクにおいて,特に小型・長距離オブジェクトにおいて,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-18T13:53:48Z) - GNeSF: Generalizable Neural Semantic Fields [48.49860868061573]
暗黙の表現に基づく一般化可能な3Dセグメンテーションフレームワークを提案する。
本稿では,各3次元点の異なる視点から2次元意味情報を集約するソフト投票機構を提案する。
当社のアプローチは、2Dアノテーションだけで、既存の強力な監視ベースのアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-10-24T10:40:51Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Holistic 3D Scene Understanding from a Single Image with Implicit
Representation [112.40630836979273]
単一の画像から全体的3Dシーン理解のための新しいパイプラインを提示する。
画像に基づく局所構造化暗黙ネットワークを提案し,物体形状推定を改善する。
また,新たな暗黙的なシーングラフニューラルネットワークを用いて3dオブジェクトのポーズとシーンレイアウトを洗練する。
論文 参考訳(メタデータ) (2021-03-11T02:52:46Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。