論文の概要: EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual and
Language Learning
- arxiv url: http://arxiv.org/abs/2209.14941v1
- Date: Thu, 29 Sep 2022 17:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 18:04:33.631348
- Title: EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual and
Language Learning
- Title(参考訳): EDA:3次元視覚・言語学習のためのテキストデカップリングとセンスアライメント
- Authors: Yanmin Wu, Xinhua Cheng, Renrui Zhang, Zesen Cheng, Jian Zhang
- Abstract要約: 3Dビジュアルグラウンドは、リッチなセマンティックコンポーネントを備えた自由形式の自然言語記述によって言及されているポイントクラウド内のオブジェクトを見つけることを目的としている。
文中のテキスト属性を明示的に分離するEDAを提案する。
2つの新しい視覚的接地タスクを導入し、オブジェクト名なしでオブジェクトを配置し、記述に参照された補助オブジェクトを配置する。
- 参考スコア(独自算出の注目度): 4.447173454116189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D visual grounding aims to find the objects within point clouds mentioned by
free-form natural language descriptions with rich semantic components. However,
existing methods either extract the sentence-level features coupling all words,
or focus more on object names, which would lose the word-level information or
neglect other attributes. To alleviate this issue, we present EDA that
Explicitly Decouples the textual attributes in a sentence and conducts Dense
Alignment between such fine-grained language and point cloud objects.
Specifically, we first propose a text decoupling module to produce textual
features for every semantic component. Then, we design two losses to supervise
the dense matching between two modalities: the textual position alignment and
object semantic alignment. On top of that, we further introduce two new visual
grounding tasks, locating objects without object names and locating auxiliary
objects referenced in the descriptions, both of which can thoroughly evaluate
the model's dense alignment capacity. Through experiments, we achieve
state-of-the-art performance on two widely-adopted visual grounding datasets ,
ScanRefer and SR3D/NR3D, and obtain absolute leadership on our two
newly-proposed tasks. The code will be available at
https://github.com/yanmin-wu/EDA.
- Abstract(参考訳): 3dビジュアルグラウンドは、リッチなセマンティックコンポーネントを持つ自由形式の自然言語記述によって言及されるポイントクラウド内のオブジェクトを見つけることを目的としている。
しかし、既存の方法では、すべての単語を結合した文レベルの特徴を抽出するか、オブジェクト名にもっとフォーカスするか、単語レベルの情報を失うか、他の属性を無視する。
この問題を軽減するため,文中のテキスト属性を明示的に分離し,細粒度言語と点クラウドオブジェクト間のDense Alignmentを実行するEDAを提案する。
具体的には、まずテキストデカップリングモジュールを提案し、各セマンティックコンポーネントのテキスト機能を生成する。
次に,テキスト位置アライメントとオブジェクト意味アライメントの2つのモダリティ間の密結合を監督するために,損失を2つ設計する。
さらに,オブジェクト名のないオブジェクトの探索と,記述に参照される補助オブジェクトの探索という,2つの新たなビジュアルグラウンドタスクを導入することで,モデルの密集したアライメント容量を徹底的に評価できる。
実験により,ScanRefer と SR3D/NR3D の2つの広義の視覚的接地データセットに対して最先端のパフォーマンスを実現し,新たに提案した2つのタスクに対して絶対的なリーダーシップを得ることができた。
コードはhttps://github.com/yanmin-wu/edaで入手できる。
関連論文リスト
- Weakly-Supervised 3D Visual Grounding based on Visual Linguistic
Alignment [28.20485007260061]
既存の3Dビジュアルグラウンドのアプローチでは、テキストクエリのバウンディングボックスアノテーションがかなり必要になります。
textbfVisual textbfLinguistic textbfAlignment に基づいたtextbf3Dビジュアルグラウンドの弱教師付きアプローチである textbf3D-VLA を提案する。
我々の3D-VLAは、テキストと2D画像間のセマンティクスの整合において、現在の大規模視覚言語モデル(VLM)の優れた能力を利用する。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Three Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [79.8456640972935]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
本稿では,3つのスタンドアロンモジュールを特徴とする高密度3次元グラウンドネットワークを提案する。
まず,文間関係を曖昧にすることを目的としたボトムアップ注意融合モジュールを導入し,次に,潜時空間の分離を誘導する対照的な学習手法を構築し,学習されたグローバルカメラトークンを用いて視点依存発話を解消する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Free-form Description Guided 3D Visual Graph Network for Object
Grounding in Point Cloud [39.055928838826226]
3dオブジェクトのグラウンド化は、フリーフォーム言語記述に基づいて、生のポイントクラウドシーンで最も関連するターゲットオブジェクトを見つけることを目的としている。
豊かな構造と長距離句相関を捉えるための言語シーングラフモジュールを提案する。
次に,オブジェクト-オブジェクト間およびオブジェクト-シーン間共起関係を抽出するために,多レベル3次元提案関係グラフモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-30T14:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。