論文の概要: SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention
- arxiv url: http://arxiv.org/abs/2403.08182v1
- Date: Wed, 13 Mar 2024 02:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:49:50.213128
- Title: SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention
- Title(参考訳): SeCG: クロスモーダルグラフによるセマンティックな3D視覚グラウンド
注意
- Authors: Feng Xiao, Hongbin Xu, Qiuxia Wu, Wenxiong Kang
- Abstract要約: 設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 19.23636231942245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D visual grounding aims to automatically locate the 3D region of the
specified object given the corresponding textual description. Existing works
fail to distinguish similar objects especially when multiple referred objects
are involved in the description. Experiments show that direct matching of
language and visual modal has limited capacity to comprehend complex
referential relationships in utterances. It is mainly due to the interference
caused by redundant visual information in cross-modal alignment. To strengthen
relation-orientated mapping between different modalities, we propose SeCG, a
semantic-enhanced relational learning model based on a graph network with our
designed memory graph attention layer. Our method replaces original
language-independent encoding with cross-modal encoding in visual analysis.
More text-related feature expressions are obtained through the guidance of
global semantics and implicit relationships. Experimental results on ReferIt3D
and ScanRefer benchmarks show that the proposed method outperforms the existing
state-of-the-art methods, particularly improving the localization performance
for the multi-relation challenges.
- Abstract(参考訳): 3Dビジュアルグラウンドティングは、対応するテキスト記述が与えられた指定対象の3D領域を自動的に特定することを目的としている。
既存の作業は、特に複数の参照オブジェクトが記述に関与している場合、類似したオブジェクトを区別することができない。
実験により,言語と視覚的モーダルの直接マッチングは,発話における複雑な参照関係を理解する能力に制限があることが示された。
主に、クロスモーダルアライメントにおける冗長な視覚情報による干渉によるものである。
本研究では,異なるモダリティ間の関係指向マッピングを強化するために,設計したメモリグラフアテンション層を用いたグラフネットワークに基づく意味強化型関係学習モデルSeCGを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
よりテキスト関連の特徴表現は、グローバルセマンティクスと暗黙の関係のガイダンスによって得られる。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れており,特にマルチリレーション問題に対するローカライゼーション性能が向上している。
関連論文リスト
- Fine-Grained Spatial and Verbal Losses for 3D Visual Grounding [54.50661247353241]
3Dビジュアルグラウンドリングは、付随する言語記述によって参照される3Dシーンのインスタンスを識別する。
ほとんどの手法は、予測された候補インスタンス上の分布に対する基本的な教師付きクロスエントロピー損失に依存している。
本稿では,3次元視覚的接地における2つの新たな損失について紹介する。各インスタンスから接地構造参照インスタンスへの回帰ベクトルオフセットに対する視覚レベルオフセットの損失と,参照インスタンスの単語レベルスパンの予測における言語関連スパンの損失である。
論文 参考訳(メタデータ) (2024-11-05T18:39:25Z) - Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension [40.21084218601082]
本稿では、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する、困難な設定に焦点を当てる。
そこで本研究では,対象対象対象の局所化にターゲット関連テキストキューを活用する新しいプログレッシブネットワーク(PCNet)を提案する。
本手法は3つのベンチマークでSOTA法より優れている。
論文 参考訳(メタデータ) (2024-10-02T13:30:32Z) - RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval [8.855547063009828]
本稿では、画像文検索のためのCMSEIと呼ばれるクロスモーダル・セマンティック・エンハンスメント・インタラクション手法を提案する。
まず、オブジェクトの意味表現を強化するために、モーダル内およびモーダル間空間および意味グラフに基づく推論を設計する。
オブジェクトのコンテキストとテキストのコンテキストを関連付けるために,クロスレベルなオブジェクト文と単語画像に基づく対話的注意による視覚的意味表現をさらに洗練する。
論文 参考訳(メタデータ) (2022-10-17T10:01:16Z) - TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D
Visual Grounding [15.617150859765024]
我々はTransformerを、置換不変な3次元点群データに対する自然な適合性に活用する。
本稿では,エンティティとリレーショナルを意識したマルチモーダルコンテキストを抽出するTransRefer3Dネットワークを提案する。
提案手法は既存手法を最大10.6%上回る性能を示した。
論文 参考訳(メタデータ) (2021-08-05T05:47:12Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。