論文の概要: Joint Top-Down and Bottom-Up Frameworks for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2410.15615v1
- Date: Mon, 21 Oct 2024 03:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:34.604192
- Title: Joint Top-Down and Bottom-Up Frameworks for 3D Visual Grounding
- Title(参考訳): 3次元視覚グラウンドのためのトップダウンとボトムアップの統合フレームワーク
- Authors: Yang Liu, Daizong Liu, Wei Hu,
- Abstract要約: 本稿では,テキスト記述に基づく3Dポイントクラウドシーンにおいて,特定の物体を位置決めする3次元視覚的グラウンディングの課題に取り組む。
既存のメソッドは、トップダウンとボトムアップの2つのカテゴリに分類される。
本稿では,効率を向上しながら性能を向上させることを目的とした,共同トップダウンとボトムアップのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.55989894411032
- License:
- Abstract: This paper tackles the challenging task of 3D visual grounding-locating a specific object in a 3D point cloud scene based on text descriptions. Existing methods fall into two categories: top-down and bottom-up methods. Top-down methods rely on a pre-trained 3D detector to generate and select the best bounding box, resulting in time-consuming processes. Bottom-up methods directly regress object bounding boxes with coarse-grained features, producing worse results. To combine their strengths while addressing their limitations, we propose a joint top-down and bottom-up framework, aiming to enhance the performance while improving the efficiency. Specifically, in the first stage, we propose a bottom-up based proposal generation module, which utilizes lightweight neural layers to efficiently regress and cluster several coarse object proposals instead of using a complex 3D detector. Then, in the second stage, we introduce a top-down based proposal consolidation module, which utilizes graph design to effectively aggregate and propagate the query-related object contexts among the generated proposals for further refinement. By jointly training these two modules, we can avoid the inherent drawbacks of the complex proposals in the top-down framework and the coarse proposals in the bottom-up framework. Experimental results on the ScanRefer benchmark show that our framework is able to achieve the state-of-the-art performance.
- Abstract(参考訳): 本稿では,テキスト記述に基づく3Dポイントクラウドシーンにおいて,特定の物体を位置決めする3次元視覚的グラウンディングの課題に取り組む。
既存のメソッドは、トップダウンとボトムアップの2つのカテゴリに分類される。
トップダウン法は、訓練済みの3D検出器を使用して、最高のバウンディングボックスを生成し、選択し、結果として時間のかかるプロセスをもたらす。
ボトムアップ法は、粗い粒度の特徴を持つオブジェクト境界ボックスを直接回帰し、より悪い結果をもたらす。
限界に対処しながらそれらの強みを組み合わせ,効率を向上しつつ性能を向上させることを目的とした,共同トップダウンとボトムアップの枠組みを提案する。
具体的には、ボトムアップベースの提案生成モジュールを提案する。このモジュールは、軽量なニューラルネットワーク層を用いて、複雑な3D検出器ではなく、複数の粗いオブジェクト提案を効率的に回帰、クラスタ化する。
そして、第2段階では、グラフ設計を利用して、生成した提案のうちクエリ関連オブジェクトコンテキストを効果的に集約し、伝播させ、さらなる改善を図るトップダウンベースの提案統合モジュールを導入する。
これら2つのモジュールを共同でトレーニングすることで、トップダウンフレームワークにおける複雑な提案とボトムアップフレームワークにおける粗い提案の固有の欠点を回避できます。
ScanReferベンチマークの実験結果は、我々のフレームワークが最先端のパフォーマンスを達成することができることを示している。
関連論文リスト
- Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object
Detection [114.54835359657707]
ProposalContrastは、教師なしのポイントクラウド事前トレーニングフレームワークである。
地域提案と対比することで、堅牢な3D表現を学習する。
ProposalContrastは様々な3D検出器で検証される。
論文 参考訳(メタデータ) (2022-07-26T04:45:49Z) - NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation
on Point Clouds [44.258500431460924]
本稿では,3次元点雲の例示生成手法を提案する。
本稿では,この手法が重要なボトルネックとなることを示し,学習カーネルによる繰り返し二元フィルタリングに基づく手法を提案する。
論文 参考訳(メタデータ) (2022-07-20T15:37:32Z) - MCTS with Refinement for Proposals Selection Games in Scene
Understanding [32.92475660892122]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを適用したシーン理解問題に適用可能な新しい手法を提案する。
提案手法は,提案された提案のプールから,目的語を最大化する提案を共同で選択し,最適化する。
本手法は,部屋配置に厳しい制約を加えることなく,Matterport3Dデータセット上で高い性能を示す。
論文 参考訳(メタデータ) (2022-07-07T10:15:54Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - Learning Local Displacements for Point Cloud Completion [93.54286830844134]
本稿では,3次元点雲として表現された部分的スキャンからオブジェクトとセマンティックシーンを補完する手法を提案する。
アーキテクチャはエンコーダ-デコーダ構造内で連続的に使用される3つの新しいレイヤに依存している。
オブジェクトと屋内の両方のシーン完了タスクにおけるアーキテクチャの評価を行い、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:31:37Z) - Adaptive Proposal Generation Network for Temporal Sentence Localization
in Videos [58.83440885457272]
ビデオ(TSLV)における時間文ローカライゼーションの問題に対処する。
従来のメソッドは、事前に定義されたセグメントの提案でターゲットセグメントをローカライズするトップダウンフレームワークに従っている。
本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。
論文 参考訳(メタデータ) (2021-09-14T02:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。