Fugu-MT 論文翻訳(概要): EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual and Language Learning

論文の概要: EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual and Language Learning

arxiv url: http://arxiv.org/abs/2209.14941v1
Date: Thu, 29 Sep 2022 17:00:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-30 18:04:33.631348
Title: EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual and Language Learning
Title（参考訳）: EDA:3次元視覚・言語学習のためのテキストデカップリングとセンスアライメント
Authors: Yanmin Wu, Xinhua Cheng, Renrui Zhang, Zesen Cheng, Jian Zhang
Abstract要約: 3Dビジュアルグラウンドは、リッチなセマンティックコンポーネントを備えた自由形式の自然言語記述によって言及されているポイントクラウド内のオブジェクトを見つけることを目的としている。文中のテキスト属性を明示的に分離するEDAを提案する。 2つの新しい視覚的接地タスクを導入し、オブジェクト名なしでオブジェクトを配置し、記述に参照された補助オブジェクトを配置する。
参考スコア（独自算出の注目度）: 4.447173454116189
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D visual grounding aims to find the objects within point clouds mentioned by free-form natural language descriptions with rich semantic components. However, existing methods either extract the sentence-level features coupling all words, or focus more on object names, which would lose the word-level information or neglect other attributes. To alleviate this issue, we present EDA that Explicitly Decouples the textual attributes in a sentence and conducts Dense Alignment between such fine-grained language and point cloud objects. Specifically, we first propose a text decoupling module to produce textual features for every semantic component. Then, we design two losses to supervise the dense matching between two modalities: the textual position alignment and object semantic alignment. On top of that, we further introduce two new visual grounding tasks, locating objects without object names and locating auxiliary objects referenced in the descriptions, both of which can thoroughly evaluate the model's dense alignment capacity. Through experiments, we achieve state-of-the-art performance on two widely-adopted visual grounding datasets , ScanRefer and SR3D/NR3D, and obtain absolute leadership on our two newly-proposed tasks. The code will be available at https://github.com/yanmin-wu/EDA.
Abstract（参考訳）: 3dビジュアルグラウンドは、リッチなセマンティックコンポーネントを持つ自由形式の自然言語記述によって言及されるポイントクラウド内のオブジェクトを見つけることを目的としている。しかし、既存の方法では、すべての単語を結合した文レベルの特徴を抽出するか、オブジェクト名にもっとフォーカスするか、単語レベルの情報を失うか、他の属性を無視する。この問題を軽減するため,文中のテキスト属性を明示的に分離し,細粒度言語と点クラウドオブジェクト間のDense Alignmentを実行するEDAを提案する。具体的には、まずテキストデカップリングモジュールを提案し、各セマンティックコンポーネントのテキスト機能を生成する。次に,テキスト位置アライメントとオブジェクト意味アライメントの2つのモダリティ間の密結合を監督するために,損失を2つ設計する。さらに,オブジェクト名のないオブジェクトの探索と,記述に参照される補助オブジェクトの探索という,2つの新たなビジュアルグラウンドタスクを導入することで,モデルの密集したアライメント容量を徹底的に評価できる。実験により,ScanRefer と SR3D/NR3D の2つの広義の視覚的接地データセットに対して最先端のパフォーマンスを実現し,新たに提案した2つのタスクに対して絶対的なリーダーシップを得ることができた。コードはhttps://github.com/yanmin-wu/edaで入手できる。

関連論文リスト

Descrip3D: Enhancing Large Language Model-based 3D Scene Understanding with Object-Level Text Descriptions [28.185661905201222]
Descrip3Dは自然言語を使ってオブジェクト間の関係を明示的にエンコードする新しいフレームワークである。グラウンド、キャプション、質問応答など、さまざまなタスクを統一した推論を可能にする。
論文参考訳（メタデータ） (2025-07-19T09:19:16Z)
LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。 ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文参考訳（メタデータ） (2024-10-17T07:47:41Z)
3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation [20.7179907935644]
3D-AVSは3Dポイントクラウドのオートボキャブラリの手法で、ボキャブラリが未知であり、実行時に各入力に対して自動生成される。 3D-AVSはまずイメージまたはポイントクラウドデータからセマンティックエンティティを認識し、次に自動的に生成された語彙ですべてのポイントをセグメンテーションする。本手法は、画像ベースと点ベースの両方の認識を取り入れ、難解な照明条件下で頑健さを向上する。
論文参考訳（メタデータ） (2024-06-13T13:59:47Z)
Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文参考訳（メタデータ） (2023-09-08T19:27:01Z)
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文参考訳（メタデータ） (2023-08-01T07:50:14Z)
3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。 3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-25T09:33:25Z)
Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文参考訳（メタデータ） (2023-07-18T13:49:49Z)
Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文参考訳（メタデータ） (2022-11-27T14:47:31Z)
Free-form Description Guided 3D Visual Graph Network for Object Grounding in Point Cloud [39.055928838826226]
3dオブジェクトのグラウンド化は、フリーフォーム言語記述に基づいて、生のポイントクラウドシーンで最も関連するターゲットオブジェクトを見つけることを目的としている。豊かな構造と長距離句相関を捉えるための言語シーングラフモジュールを提案する。次に,オブジェクト-オブジェクト間およびオブジェクト-シーン間共起関係を抽出するために,多レベル3次元提案関係グラフモジュールを提案する。
論文参考訳（メタデータ） (2021-03-30T14:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。