論文の概要: EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual
Grounding
- arxiv url: http://arxiv.org/abs/2209.14941v3
- Date: Mon, 24 Apr 2023 13:16:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 23:46:48.114353
- Title: EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual
Grounding
- Title(参考訳): EDA:3次元視覚グラウンドのためのテキストデカップリングとディエンスアライメント
- Authors: Yanmin Wu, Xinhua Cheng, Renrui Zhang, Zesen Cheng, Jian Zhang
- Abstract要約: 3Dビジュアルグラウンドティングは、リッチなセマンティックキューを備えた自由形式の自然言語記述によって言及されているポイントクラウド内のオブジェクトを見つけることを目的としている。
文中のテキスト属性を明示的に分離するEDAを提案する。
さらに、オブジェクト名を含まないオブジェクトを位置決めする新しい視覚的接地タスクを導入し、モデルの高密度アライメント能力を徹底的に評価する。
- 参考スコア(独自算出の注目度): 4.447173454116189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D visual grounding aims to find the object within point clouds mentioned by
free-form natural language descriptions with rich semantic cues. However,
existing methods either extract the sentence-level features coupling all words
or focus more on object names, which would lose the word-level information or
neglect other attributes. To alleviate these issues, we present EDA that
Explicitly Decouples the textual attributes in a sentence and conducts Dense
Alignment between such fine-grained language and point cloud objects.
Specifically, we first propose a text decoupling module to produce textual
features for every semantic component. Then, we design two losses to supervise
the dense matching between two modalities: position alignment loss and semantic
alignment loss. On top of that, we further introduce a new visual grounding
task, locating objects without object names, which can thoroughly evaluate the
model's dense alignment capacity. Through experiments, we achieve
state-of-the-art performance on two widely-adopted 3D visual grounding
datasets, ScanRefer and SR3D/NR3D, and obtain absolute leadership on our
newly-proposed task. The source code is available at
https://github.com/yanmin-wu/EDA.
- Abstract(参考訳): 3dビジュアルグラウンドは、リッチな意味的手がかりを持つ自由形式の自然言語記述で言及されるポイントクラウド内でオブジェクトを見つけることを目的としている。
しかし、既存の方法では、すべての単語を結合する文レベルの特徴を抽出するか、オブジェクト名にもっと焦点を合わせるか、単語レベルの情報を失うか、他の属性を無視するかのいずれかである。
これらの問題を緩和するため,文中のテキスト属性を明示的に分離し,細粒度言語と点クラウドオブジェクト間のDense Alignmentを実行するEDAを提案する。
具体的には、まずテキストデカップリングモジュールを提案し、各セマンティックコンポーネントのテキスト機能を生成する。
次に、位置アライメント損失と意味アライメント損失の2つのモード間の密マッチングを監督する2つの損失を設計する。
さらに,オブジェクト名のないオブジェクトを探索し,モデルの密集したアライメントキャパシティを徹底的に評価する,新たなビジュアルグラウンドタスクも導入した。
実験により,ScanRefer と SR3D/NR3D の2つの広義の視覚的グラウンドデータセット上での最先端のパフォーマンスを実現し,新たに提案したタスクにおける絶対的リーダーシップを得る。
ソースコードはhttps://github.com/yanmin-wu/edaで入手できる。
関連論文リスト
- Weakly-Supervised 3D Visual Grounding based on Visual Linguistic
Alignment [28.20485007260061]
既存の3Dビジュアルグラウンドのアプローチでは、テキストクエリのバウンディングボックスアノテーションがかなり必要になります。
textbfVisual textbfLinguistic textbfAlignment に基づいたtextbf3Dビジュアルグラウンドの弱教師付きアプローチである textbf3D-VLA を提案する。
我々の3D-VLAは、テキストと2D画像間のセマンティクスの整合において、現在の大規模視覚言語モデル(VLM)の優れた能力を利用する。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Three Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [79.8456640972935]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
本稿では,3つのスタンドアロンモジュールを特徴とする高密度3次元グラウンドネットワークを提案する。
まず,文間関係を曖昧にすることを目的としたボトムアップ注意融合モジュールを導入し,次に,潜時空間の分離を誘導する対照的な学習手法を構築し,学習されたグローバルカメラトークンを用いて視点依存発話を解消する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Free-form Description Guided 3D Visual Graph Network for Object
Grounding in Point Cloud [39.055928838826226]
3dオブジェクトのグラウンド化は、フリーフォーム言語記述に基づいて、生のポイントクラウドシーンで最も関連するターゲットオブジェクトを見つけることを目的としている。
豊かな構造と長距離句相関を捉えるための言語シーングラフモジュールを提案する。
次に,オブジェクト-オブジェクト間およびオブジェクト-シーン間共起関係を抽出するために,多レベル3次元提案関係グラフモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-30T14:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。