論文の概要: MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2403.03077v4
- Date: Sun, 01 Dec 2024 14:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:23:04.944576
- Title: MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding
- Title(参考訳): MiKASA:3Dビジュアルグラウンドのためのマルチキーアンカーとシーンアウェアトランス
- Authors: Chun-Peng Chang, Shaoxiang Wang, Alain Pagani, Didier Stricker,
- Abstract要約: 3Dビジュアルグラウンドティングでは、自然言語記述と対応するオブジェクトを3D空間でマッチングする。
既存の手法は、オブジェクト認識の正確さや複雑な言語クエリの解釈に苦慮している場合が多い。
我々は,自己注意に基づくシーン認識オブジェクトエンコーダと,元来のマルチキーアンカー技術を統合したMiKASA変換器を提案する。
我々のモデルは、Sr3DとNr3Dの両方のデータセットに対するReferit3Dチャレンジにおいて、最も高い総合的精度を達成する。
- 参考スコア(独自算出の注目度): 12.462336116108572
- License:
- Abstract: 3D visual grounding involves matching natural language descriptions with their corresponding objects in 3D spaces. Existing methods often face challenges with accuracy in object recognition and struggle in interpreting complex linguistic queries, particularly with descriptions that involve multiple anchors or are view-dependent. In response, we present the MiKASA (Multi-Key-Anchor Scene-Aware) Transformer. Our novel end-to-end trained model integrates a self-attention-based scene-aware object encoder and an original multi-key-anchor technique, enhancing object recognition accuracy and the understanding of spatial relationships. Furthermore, MiKASA improves the explainability of decision-making, facilitating error diagnosis. Our model achieves the highest overall accuracy in the Referit3D challenge for both the Sr3D and Nr3D datasets, particularly excelling by a large margin in categories that require viewpoint-dependent descriptions.
- Abstract(参考訳): 3Dビジュアルグラウンドティングでは、自然言語記述と対応するオブジェクトを3D空間でマッチングする。
既存の手法では、オブジェクト認識の正確さや複雑な言語クエリ、特に複数のアンカーを含む記述やビュー依存の記述の解釈に苦慮している場合が多い。
これに対して,Multi-Key-Anchor Scene-Aware 変換器を提案する。
我々の新しいエンドツーエンド学習モデルは、自己認識に基づくシーン認識オブジェクトエンコーダと、従来のマルチキーアンカー技術を統合し、物体認識精度を高め、空間的関係の理解を促進する。
さらに、ミカサは意思決定の説明可能性を改善し、誤りの診断を容易にする。
我々のモデルは、Sr3DとNr3Dの両方のデータセットに対するReferit3Dチャレンジにおいて、特に視点に依存した記述を必要とするカテゴリにおいて、最も高い総合的精度を達成する。
関連論文リスト
- g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトに対する3次元推論セグメンテーションタスクを提案することで,研究ギャップを埋める。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,ユーザ質問やテキスト出力による多目的3D推論セグメンテーションを可能にする,シンプルで効果的なMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Dense Object Grounding in 3D Scenes [28.05720194887322]
自然言語のセマンティクスに応じた3Dシーンでのオブジェクトのローカライズは、マルチメディア理解の分野における基本的な重要な課題である。
我々は,1文ではなく,より複雑な段落で記述された複数のオブジェクトを共同でローカライズする3D Dense Object Grounding (3D DOG)を紹介した。
提案した3DOGSFormerは,最先端の3次元単一物体グラウンド法と,その密度オブジェクトの変形率を有意差で上回る。
論文 参考訳(メタデータ) (2023-09-05T13:27:19Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。