論文の概要: Fine-Grained Spatial and Verbal Losses for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2411.03405v1
- Date: Tue, 05 Nov 2024 18:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:23:37.477159
- Title: Fine-Grained Spatial and Verbal Losses for 3D Visual Grounding
- Title(参考訳): 3次元視覚的グラウンドニングのための細粒度空間と垂直損失
- Authors: Sombit Dey, Ozan Unal, Christos Sakaridis, Luc Van Gool,
- Abstract要約: 3Dビジュアルグラウンドリングは、付随する言語記述によって参照される3Dシーンのインスタンスを識別する。
ほとんどの手法は、予測された候補インスタンス上の分布に対する基本的な教師付きクロスエントロピー損失に依存している。
本稿では,3次元視覚的接地における2つの新たな損失について紹介する。各インスタンスから接地構造参照インスタンスへの回帰ベクトルオフセットに対する視覚レベルオフセットの損失と,参照インスタンスの単語レベルスパンの予測における言語関連スパンの損失である。
- 参考スコア(独自算出の注目度): 54.50661247353241
- License:
- Abstract: 3D visual grounding consists of identifying the instance in a 3D scene which is referred by an accompanying language description. While several architectures have been proposed within the commonly employed grounding-by-selection framework, the utilized losses are comparatively under-explored. In particular, most methods rely on a basic supervised cross-entropy loss on the predicted distribution over candidate instances, which fails to model both spatial relations between instances and the internal fine-grained word-level structure of the verbal referral. Sparse attempts to additionally supervise verbal embeddings globally by learning the class of the referred instance from the description or employing verbo-visual contrast to better separate instance embeddings do not fundamentally lift the aforementioned limitations. Responding to these shortcomings, we introduce two novel losses for 3D visual grounding: a visual-level offset loss on regressed vector offsets from each instance to the ground-truth referred instance and a language-related span loss on predictions for the word-level span of the referred instance in the description. In addition, we equip the verbo-visual fusion module of our new 3D visual grounding architecture AsphaltNet with a top-down bidirectional attentive fusion block, which enables the supervisory signals from our two losses to propagate to the respective converse branches of the network and thus aid the latter to learn context-aware instance embeddings and grounding-aware verbal embeddings. AsphaltNet proposes novel auxiliary losses to aid 3D visual grounding with competitive results compared to the state-of-the-art on the ReferIt3D benchmark.
- Abstract(参考訳): 3Dビジュアルグラウンドリングは、付随する言語記述によって参照される3Dシーンのインスタンスを識別する。
一般に採用されている基盤選択フレームワーク内では、いくつかのアーキテクチャが提案されているが、利用された損失は比較的過小評価されている。
特に、ほとんどの手法は、予測された候補インスタンス上の分布に対して、基本的な教師付きクロスエントロピー損失に依存しており、これは、インスタンス間の空間的関係と、単語参照の内在的な粒度の単語レベルの構造の両方をモデル化できない。
Sparseは、参照されたインスタンスのクラスを記述から学習したり、より優れた個別のインスタンスの埋め込みが上記の制限を根本から持ち上げることはないように、グローバルに言語埋め込みを監督しようとする。
これらの欠点に対応して、各インスタンスから接地トラスト参照インスタンスへの回帰ベクトルオフセットに対する視覚レベルオフセットの損失と、参照インスタンスの単語レベルスパンの予測における言語関連スパンの損失の2つの新しい3次元視覚的グラウンドの損失を導入する。
さらに,新しい3次元視覚接地アーキテクチャAsphaltNetの動詞・視覚融合モジュールにトップダウンの双方向注意融合ブロックを装備し,2つの損失からの監視信号をネットワークの各逆分岐に伝達し,後者がコンテキスト認識のインスタンス埋め込みと接地認識の言語埋め込みを学習できるようにする。
AsphaltNetは、ReferIt3Dベンチマークの最先端と比較して、競争力のある結果で3Dの視覚的接地を支援するために、新たな補助的損失を提案する。
関連論文リスト
- R2G: Reasoning to Ground in 3D Scenes [22.917172452931844]
R2G(Reasoning to Ground)は、3Dシーン内の対象物を推論的にグラウンド化するニューラルネットワークのシンボルモデルである。
R2Gは、セマンティックな概念に基づくシーングラフで3Dシーンを明示的にモデル化し、オブジェクトエンティティ間での注意伝達を反復的にシミュレートする。
Sr3D/Nr3Dベンチマークの実験により、R2Gは解釈可能性の向上を維持しつつ、以前の研究と同等の結果を得ることが示された。
論文 参考訳(メタデータ) (2024-08-24T06:52:14Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - Image Captioning with Visual Object Representations Grounded in the
Textual Modality [14.797241131469486]
テキストと視覚のモダリティ間の共有埋め込み空間の可能性を探る。
本稿では,キャプションシステムの単語埋め込み空間における表現を基礎として,現在の傾向とは逆のアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-19T12:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。