Fugu-MT 論文翻訳(概要): Multi-Object 3D Grounding with Dynamic Modules and Language-Informed Spatial Attention

論文の概要: Multi-Object 3D Grounding with Dynamic Modules and Language-Informed Spatial Attention

arxiv url: http://arxiv.org/abs/2410.22306v1
Date: Tue, 29 Oct 2024 17:52:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.983162
Title: Multi-Object 3D Grounding with Dynamic Modules and Language-Informed Spatial Attention
Title（参考訳）: 動的モジュールと言語インフォームド空間アテンションを用いた多目的3次元グラウンドイング
Authors: Haomeng Zhang, Chiao-An Yang, Raymond A. Yeh,
Abstract要約: D-LISAは3つのイノベーションを取り入れた2段階のアプローチである。まず、可変で学習可能なボックスの提案を可能にする動的視覚モジュール。第二に、提案毎に特徴を抽出するダイナミックカメラの位置決め。第三に、言語インフォームド空間アテンションモジュールは、最終的な予測を出力する提案に対してより良い理由を持つ。
参考スコア（独自算出の注目度）: 12.203336176170982
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-object 3D Grounding involves locating 3D boxes based on a given query phrase from a point cloud. It is a challenging and significant task with numerous applications in visual understanding, human-computer interaction, and robotics. To tackle this challenge, we introduce D-LISA, a two-stage approach incorporating three innovations. First, a dynamic vision module that enables a variable and learnable number of box proposals. Second, a dynamic camera positioning that extracts features for each proposal. Third, a language-informed spatial attention module that better reasons over the proposals to output the final prediction. Empirically, experiments show that our method outperforms the state-of-the-art methods on multi-object 3D grounding by 12.8% (absolute) and is competitive in single-object 3D grounding.
Abstract（参考訳）: マルチオブジェクト3Dグラウンドは、ポイントクラウドから与えられたクエリフレーズに基づいて3Dボックスを配置する。これは視覚的理解、人間とコンピュータの相互作用、ロボット工学における多くの応用において、挑戦的で重要なタスクである。この課題に対処するために,3つのイノベーションを取り入れた2段階のアプローチであるD-LISAを紹介する。まず、可変で学習可能なボックスの提案を可能にする動的視覚モジュール。第二に、提案毎に特徴を抽出するダイナミックカメラの位置決め。第三に、言語インフォームド空間アテンションモジュールは、最終的な予測を出力する提案に対してより良い理由を持つ。実験により,本手法は多目的3次元接地における最先端手法を12.8%(絶対)で上回り,単目的3次元接地において競合することを示した。

関連論文リスト

Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文参考訳（メタデータ） (2025-11-14T04:16:09Z)
From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes [30.015378490907988]
Anywhere3D-Benchは2,886個の表現3D境界ボックスペアからなる総合的な3D視覚的グラウンドベンチマークである。我々は,大規模言語モデルとともに,最先端の3次元視覚的グラウンドディング手法の評価を行った。
論文参考訳（メタデータ） (2025-06-05T11:28:02Z)
AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。本稿では,関係認識のためのオブジェクト識別を伴う意味空間のシーングラフを構築する2次元視覚的グラウンドティングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-07T02:02:15Z)
Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトに対する3次元推論セグメンテーションタスクを提案することで,研究ギャップを埋める。このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。さらに,ユーザ質問やテキスト出力による多目的3D推論セグメンテーションを可能にする,シンプルで効果的なMORE3Dを設計する。
論文参考訳（メタデータ） (2024-11-21T08:22:45Z)
Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。 Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文参考訳（メタデータ） (2024-05-29T17:56:07Z)
Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文参考訳（メタデータ） (2023-09-08T19:27:01Z)
Dense Object Grounding in 3D Scenes [28.05720194887322]
自然言語のセマンティクスに応じた3Dシーンでのオブジェクトのローカライズは、マルチメディア理解の分野における基本的な重要な課題である。我々は,1文ではなく,より複雑な段落で記述された複数のオブジェクトを共同でローカライズする3D Dense Object Grounding (3D DOG)を紹介した。提案した3DOGSFormerは,最先端の3次元単一物体グラウンド法と,その密度オブジェクトの変形率を有意差で上回る。
論文参考訳（メタデータ） (2023-09-05T13:27:19Z)
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文参考訳（メタデータ） (2023-06-04T11:08:53Z)
WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-04-12T06:48:26Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)
A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文参考訳（メタデータ） (2022-08-22T03:38:01Z)
Looking Outside the Box to Ground Language in 3D Scenes [27.126171549887232]
本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。 3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
論文参考訳（メタデータ） (2021-12-16T13:50:23Z)
LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文参考訳（メタデータ） (2021-07-07T18:55:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。