論文の概要: EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual and
Language Learning
- arxiv url: http://arxiv.org/abs/2209.14941v1
- Date: Thu, 29 Sep 2022 17:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 18:04:33.631348
- Title: EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual and
Language Learning
- Title(参考訳): EDA:3次元視覚・言語学習のためのテキストデカップリングとセンスアライメント
- Authors: Yanmin Wu, Xinhua Cheng, Renrui Zhang, Zesen Cheng, Jian Zhang
- Abstract要約: 3Dビジュアルグラウンドは、リッチなセマンティックコンポーネントを備えた自由形式の自然言語記述によって言及されているポイントクラウド内のオブジェクトを見つけることを目的としている。
文中のテキスト属性を明示的に分離するEDAを提案する。
2つの新しい視覚的接地タスクを導入し、オブジェクト名なしでオブジェクトを配置し、記述に参照された補助オブジェクトを配置する。
- 参考スコア(独自算出の注目度): 4.447173454116189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D visual grounding aims to find the objects within point clouds mentioned by
free-form natural language descriptions with rich semantic components. However,
existing methods either extract the sentence-level features coupling all words,
or focus more on object names, which would lose the word-level information or
neglect other attributes. To alleviate this issue, we present EDA that
Explicitly Decouples the textual attributes in a sentence and conducts Dense
Alignment between such fine-grained language and point cloud objects.
Specifically, we first propose a text decoupling module to produce textual
features for every semantic component. Then, we design two losses to supervise
the dense matching between two modalities: the textual position alignment and
object semantic alignment. On top of that, we further introduce two new visual
grounding tasks, locating objects without object names and locating auxiliary
objects referenced in the descriptions, both of which can thoroughly evaluate
the model's dense alignment capacity. Through experiments, we achieve
state-of-the-art performance on two widely-adopted visual grounding datasets ,
ScanRefer and SR3D/NR3D, and obtain absolute leadership on our two
newly-proposed tasks. The code will be available at
https://github.com/yanmin-wu/EDA.
- Abstract(参考訳): 3dビジュアルグラウンドは、リッチなセマンティックコンポーネントを持つ自由形式の自然言語記述によって言及されるポイントクラウド内のオブジェクトを見つけることを目的としている。
しかし、既存の方法では、すべての単語を結合した文レベルの特徴を抽出するか、オブジェクト名にもっとフォーカスするか、単語レベルの情報を失うか、他の属性を無視する。
この問題を軽減するため,文中のテキスト属性を明示的に分離し,細粒度言語と点クラウドオブジェクト間のDense Alignmentを実行するEDAを提案する。
具体的には、まずテキストデカップリングモジュールを提案し、各セマンティックコンポーネントのテキスト機能を生成する。
次に,テキスト位置アライメントとオブジェクト意味アライメントの2つのモダリティ間の密結合を監督するために,損失を2つ設計する。
さらに,オブジェクト名のないオブジェクトの探索と,記述に参照される補助オブジェクトの探索という,2つの新たなビジュアルグラウンドタスクを導入することで,モデルの密集したアライメント容量を徹底的に評価できる。
実験により,ScanRefer と SR3D/NR3D の2つの広義の視覚的接地データセットに対して最先端のパフォーマンスを実現し,新たに提案した2つのタスクに対して絶対的なリーダーシップを得ることができた。
コードはhttps://github.com/yanmin-wu/edaで入手できる。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Free-form Description Guided 3D Visual Graph Network for Object
Grounding in Point Cloud [39.055928838826226]
3dオブジェクトのグラウンド化は、フリーフォーム言語記述に基づいて、生のポイントクラウドシーンで最も関連するターゲットオブジェクトを見つけることを目的としている。
豊かな構造と長距離句相関を捉えるための言語シーングラフモジュールを提案する。
次に,オブジェクト-オブジェクト間およびオブジェクト-シーン間共起関係を抽出するために,多レベル3次元提案関係グラフモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-30T14:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。