Fugu-MT 論文翻訳(概要): Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space

論文の概要: Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space

arxiv url: http://arxiv.org/abs/2408.07416v2
Date: Sun, 18 Aug 2024 04:22:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 13:17:05.946189
Title: Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space
Title（参考訳）: 3次元空間におけるラジアンス場の開語彙セグメンテーションの再考
Authors: Hyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh,
Abstract要約: 本稿では,NeRFと3DGSでモデル化されたシーンの3次元理解を向上する上での課題を再考する。言語埋め込みフィールドをトレーニングするために、直接3Dポイントを監督します。マルチスケールの言語埋め込みに頼ることなく、最先端の精度を実現する。
参考スコア（独自算出の注目度）: 10.49905491984899
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Understanding the 3D semantics of a scene is a fundamental problem for various scenarios such as embodied agents. While NeRFs and 3DGS excel at novel-view synthesis, previous methods for understanding their semantics have been limited to incomplete 3D understanding: their segmentation results are 2D masks and their supervision is anchored at 2D pixels. This paper revisits the problem set to pursue a better 3D understanding of a scene modeled by NeRFs and 3DGS as follows. 1) We directly supervise the 3D points to train the language embedding field. It achieves state-of-the-art accuracy without relying on multi-scale language embeddings. 2) We transfer the pre-trained language field to 3DGS, achieving the first real-time rendering speed without sacrificing training time or accuracy. 3) We introduce a 3D querying and evaluation protocol for assessing the reconstructed geometry and semantics together. Code, checkpoints, and annotations will be available online. Project page: https://hyunji12.github.io/Open3DRF
Abstract（参考訳）: シーンの3Dセマンティクスを理解することは、エンボディエージェントのような様々なシナリオの基本的な問題である。 NeRFと3DGSは新規合成において優れているが、それらの意味を理解するための従来の方法は不完全な3D理解に限られている。本稿では,NeRF と 3DGS がモデル化したシーンの3次元理解を改善するために設定した問題点を再考する。 1)言語埋め込みフィールドをトレーニングするために,直接3Dポイントを監督する。マルチスケールの言語埋め込みに頼ることなく、最先端の精度を実現する。 2)事前学習した言語フィールドを3DGSに転送し,トレーニング時間や精度を犠牲にすることなく,最初のリアルタイムレンダリング速度を達成する。 3)再構成された幾何と意味論を一緒に評価するための3Dクエリーおよび評価プロトコルを導入する。コード、チェックポイント、アノテーションはオンラインで入手できる。プロジェクトページ:https://hyunji12.github.io/Open3DRF

関連論文リスト

MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文参考訳（メタデータ） (2024-09-21T05:12:13Z)
General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。 KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文参考訳（メタデータ） (2024-07-18T17:52:08Z)
Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。 Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文参考訳（メタデータ） (2024-05-29T17:56:07Z)
Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning [119.99066522299309]
KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:59Z)
POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文参考訳（メタデータ） (2024-01-17T18:51:53Z)
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文参考訳（メタデータ） (2023-12-15T09:08:14Z)
Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文参考訳（メタデータ） (2023-09-08T19:27:01Z)
CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文参考訳（メタデータ） (2023-03-22T09:32:45Z)
SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文参考訳（メタデータ） (2023-02-07T17:47:52Z)
SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文参考訳（メタデータ） (2023-02-02T18:59:16Z)
Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。 3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文参考訳（メタデータ） (2022-11-25T15:03:32Z)
3D Concept Grounding on Neural Fields [99.33215488324238]
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。人間は、画像の3D表現の基盤となる概念を基盤にすることができる。我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
論文参考訳（メタデータ） (2022-07-13T17:59:33Z)
NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of 3D Scenes [25.26518805603798]
NeSFは、ポーズされたRGB画像のみから3Dセマンティックフィールドを生成する方法である。本手法は,訓練に2次元の監督しか必要としない,真に密集した3次元シーンセグメンテーションを提供する最初の方法である。
論文参考訳（メタデータ） (2021-11-25T21:44:54Z)
Parameter-Efficient Person Re-identification in the 3D Space [51.092669618679615]
我々は3次元空間に2D画像を投影し、新しいパラメータ効率のOmniスケールグラフネットワーク(OG-Net)を導入し、3次元点雲から直接歩行者表現を学習する。 OG-Netはスパース3Dポイントが提供するローカル情報を効果的に活用し、その構造と外観情報を一貫性のある方法で活用する。私たちは3D空間における人物の再識別を行う最初の試みの1つです。
論文参考訳（メタデータ） (2020-06-08T13:20:33Z)
Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文参考訳（メタデータ） (2020-04-20T05:27:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。