論文の概要: Solving Zero-Shot 3D Visual Grounding as Constraint Satisfaction Problems
- arxiv url: http://arxiv.org/abs/2411.14594v1
- Date: Thu, 21 Nov 2024 21:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:03:04.803061
- Title: Solving Zero-Shot 3D Visual Grounding as Constraint Satisfaction Problems
- Title(参考訳): 制約満足度問題としてのゼロショット3次元視覚グラウンドの解法
- Authors: Qihao Yuan, Jiaming Zhang, Kailai Li, Rainer Stiefelhagen,
- Abstract要約: 3Dビジュアルグラウンドは、自然言語で記述された3Dシーン内のオブジェクトを見つけることを目的としている。
本稿では,制約満足度問題として3DVGタスクを再構成するゼロショット手法を提案する。
その結果,CSVGの有効性と現状のゼロショット3DVG法よりも優れた接地精度が得られた。
- 参考スコア(独自算出の注目度): 26.776383962999198
- License:
- Abstract: 3D visual grounding (3DVG) aims to locate objects in a 3D scene with natural language descriptions. Supervised methods have achieved decent accuracy, but have a closed vocabulary and limited language understanding ability. Zero-shot methods mostly utilize large language models (LLMs) to handle natural language descriptions, yet suffer from slow inference speed. To address these problems, in this work, we propose a zero-shot method that reformulates the 3DVG task as a Constraint Satisfaction Problem (CSP), where the variables and constraints represent objects and their spatial relations, respectively. This allows a global reasoning of all relevant objects, producing grounding results of both the target and anchor objects. Moreover, we demonstrate the flexibility of our framework by handling negation- and counting-based queries with only minor extra coding efforts. Our system, Constraint Satisfaction Visual Grounding (CSVG), has been extensively evaluated on the public datasets ScanRefer and Nr3D datasets using only open-source LLMs. Results show the effectiveness of CSVG and superior grounding accuracy over current state-of-the-art zero-shot 3DVG methods with improvements of $+7.0\%$ (Acc@0.5 score) and $+11.2\%$ on the ScanRefer and Nr3D datasets, respectively. The code of our system is publicly available at https://github.com/sunsleaf/CSVG.
- Abstract(参考訳): 3Dビジュアルグラウンドティング(3DVG)は、自然言語で記述された3Dシーン内のオブジェクトを見つけることを目的としている。
教師付き手法は精度は高いが、クローズドな語彙と限定的な言語理解能力を持つ。
ゼロショット法は主に大きな言語モデル(LLM)を用いて自然言語の記述を扱うが、推論速度は遅い。
そこで本研究では,3DVGタスクを制約満足度問題 (Constraint Satisfaction Problem, CSP) として再構成するゼロショット手法を提案する。
これにより、すべての関連するオブジェクトのグローバルな推論が可能になり、ターゲットオブジェクトとアンカーオブジェクトの両方のグラウンドディング結果が生成される。
さらに、否定型およびカウントベースのクエリを、わずかな余分なコーディング作業だけで処理することで、フレームワークの柔軟性を実証する。
提案システムであるConstraint Satisfaction Visual Grounding (CSVG) は,ScanRefer と Nr3D のデータセットに対して,オープンソース LLM のみを用いて広範囲に評価されている。
ScanRefer と Nr3D のデータセットでそれぞれ$+7.0\%$ (Acc@0.5 score) と$+11.2\%$ の改善が得られた。
システムのコードはhttps://github.com/sunsleaf/CSVG.comで公開されている。
関連論文リスト
- VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。
VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T17:59:55Z) - Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph [0.3926357402982764]
本稿では,メカニカルエッジとセマンティックエッジを用いた3次元シーングラフ表現を構築するBBQというモジュラーアプローチを提案する。
BBQは、3Dオブジェクト中心のマップを構築するために、堅牢なDINO対応のアソシエーションを使用している。
BBQは,他のゼロショット法と比較して,オープンな3次元セマンティックセマンティックセマンティックセグメンテーションにおいて中心的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:57:04Z) - CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding [23.885017062031217]
3Dビジュアルグラウンドティングは、発話によって条件付けられた3Dシーンでオブジェクトをローカライズする機能である。
既存のほとんどのメソッドは参照ヘッドを使って参照オブジェクトを直接ローカライズし、複雑なシナリオで失敗する。
本稿では,まずアンカーの連鎖と最終目標を予測し,シークエンス・ツー・シーケンスのSeq2Seqタスクとして3次元視覚接地問題を定式化する。
論文 参考訳(メタデータ) (2023-10-10T00:07:25Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Self-supervised Wide Baseline Visual Servoing via 3D Equivariance [35.93323183558956]
本稿では,広視野ベースライン画像に対する自己教師付き視覚サーボ手法を提案する。
絶対カメラがオブジェクトに対して作用する既存のアプローチでは、オブジェクトの3D地上真理データが必要である。
平均誤差が35%以上減少し,90%以上の成功率と3cmの誤差耐性が得られた。
論文 参考訳(メタデータ) (2022-09-12T17:38:26Z) - Reconstructing Hand-Object Interactions in the Wild [71.16013096764046]
直接3D監視を必要としない最適化手法を提案する。
利用可能なすべての関連データ(2Dバウンディングボックス、2Dハンドキーポイント、2Dインスタンスマスク、3Dオブジェクトモデル、3DインザラボMoCap)を利用して、3D再構築の制約を提供します。
本手法はEPIC Kitchens と 100 Days of Hands のデータセットから, 難易度の高いデータに対して, 説得力のある再構築を行う。
論文 参考訳(メタデータ) (2020-12-17T18:59:58Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。