論文の概要: 3D Concept Grounding on Neural Fields
- arxiv url: http://arxiv.org/abs/2207.06403v1
- Date: Wed, 13 Jul 2022 17:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 12:18:30.125554
- Title: 3D Concept Grounding on Neural Fields
- Title(参考訳): ニューラルフィールドに基づく3次元概念グラウンドニング
- Authors: Yining Hong, Yilun Du, Chunru Lin, Joshua B. Tenenbaum, Chuang Gan
- Abstract要約: 既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。
人間は、画像の3D表現の基盤となる概念を基盤にすることができる。
我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
- 参考スコア(独自算出の注目度): 99.33215488324238
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we address the challenging problem of 3D concept grounding
(i.e. segmenting and learning visual concepts) by looking at RGBD images and
reasoning about paired questions and answers. Existing visual reasoning
approaches typically utilize supervised methods to extract 2D segmentation
masks on which concepts are grounded. In contrast, humans are capable of
grounding concepts on the underlying 3D representation of images. However,
traditionally inferred 3D representations (e.g., point clouds, voxelgrids, and
meshes) cannot capture continuous 3D features flexibly, thus making it
challenging to ground concepts to 3D regions based on the language description
of the object being referred to. To address both issues, we propose to leverage
the continuous, differentiable nature of neural fields to segment and learn
concepts. Specifically, each 3D coordinate in a scene is represented as a
high-dimensional descriptor. Concept grounding can then be performed by
computing the similarity between the descriptor vector of a 3D coordinate and
the vector embedding of a language concept, which enables segmentations and
concept learning to be jointly learned on neural fields in a differentiable
fashion. As a result, both 3D semantic and instance segmentations can emerge
directly from question answering supervision using a set of defined neural
operators on top of neural fields (e.g., filtering and counting). Experimental
results show that our proposed framework outperforms
unsupervised/language-mediated segmentation models on semantic and instance
segmentation tasks, as well as outperforms existing models on the challenging
3D aware visual reasoning tasks. Furthermore, our framework can generalize well
to unseen shape categories and real scans.
- Abstract(参考訳): 本稿では,rgbd画像を見たり,ペアの質問や回答を推論することで,3次元概念の基盤化(すなわち,視覚概念のセグメンテーションと学習)の課題を解決する。
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。
対照的に、人間はイメージの基盤となる3d表現に概念を基礎付けることができる。
しかし、伝統的に推論された3d表現(ポイントクラウド、ボクセルグリッド、メッシュなど)は連続した3d機能を柔軟に捉えられないため、参照されるオブジェクトの言語記述に基づいて概念を3d領域に移すことが難しい。
両問題に対処するため,我々は,ニューラルネットワークの連続的かつ微分可能な性質を活用し,概念を分割し学習することを提案する。
具体的には、シーン内の各3d座標を高次元ディスクリプタとして表現する。
概念基盤化は、3次元座標の記述ベクトルと言語概念のベクトル埋め込みとの類似性を計算することにより実現され、セグメンテーションと概念学習を異なる方法でニューラルネットワーク上で共同で学習することができる。
その結果、3Dセマンティクスとインスタンスセグメンテーションの両方が、ニューラルネットワーク上に定義されたニューラルネットワーク(例えばフィルタリングとカウント)のセットを使用して、質問応答の監督から直接現れる。
実験の結果,提案フレームワークは,意味とインスタンスのセグメンテーションタスクにおいて教師なし/言語経由のセグメンテーションモデルよりも優れており,また3d認識による視覚的推論タスクでは既存のモデルよりも優れていることがわかった。
さらに,本フレームワークは,見えない形状のカテゴリや実スキャンによく応用できる。
関連論文リスト
- Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトに対する3次元推論セグメンテーションタスクを提案することで,研究ギャップを埋める。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,ユーザ質問やテキスト出力による多目的3D推論セグメンテーションを可能にする,シンプルで効果的なMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - Graphics Capsule: Learning Hierarchical 3D Face Representations from 2D
Images [82.5266467869448]
Inverse Graphics Capsule Network (IGC-Net) を提案する。
IGC-Netはまずオブジェクトをセマンティック一貫性のある部分レベルの記述の集合に分解し、それらをオブジェクトレベルの記述に組み立てて階層を構築する。
論文 参考訳(メタデータ) (2023-03-20T06:32:55Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。