論文の概要: PD-APE: A Parallel Decoding Framework with Adaptive Position Encoding for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2407.14491v2
- Date: Mon, 2 Sep 2024 08:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 17:11:28.216418
- Title: PD-APE: A Parallel Decoding Framework with Adaptive Position Encoding for 3D Visual Grounding
- Title(参考訳): PD-APE:3次元視覚グラウンドのための適応位置符号化を用いた並列デコーディングフレームワーク
- Authors: Chenshu Hou, Liang Peng, Xiaopei Wu, Xiaofei He, Wenxiao Wang,
- Abstract要約: 3Dビジュアルグラウンドは、特定の自然言語記述にマッチする3Dポイントクラウドシーン内のオブジェクトを特定することを目的としている。
これは、モデルが対象のオブジェクト自体にフォーカスするだけでなく、周囲の環境も考慮する必要がある。
本稿では,対象オブジェクト属性と周辺レイアウトを別々にデコードするデュアルブランチデコーディングフレームワークPD-APEを提案する。
- 参考スコア(独自算出の注目度): 20.422852022310945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D visual grounding aims to identify objects in 3D point cloud scenes that match specific natural language descriptions. This requires the model to not only focus on the target object itself but also to consider the surrounding environment to determine whether the descriptions are met. Most previous works attempt to accomplish both tasks within the same module, which can easily lead to a distraction of attention. To this end, we propose PD-APE, a dual-branch decoding framework that separately decodes target object attributes and surrounding layouts. Specifically, in the target object branch, the decoder processes text tokens that describe features of the target object (e.g., category and color), guiding the queries to pay attention to the target object itself. In the surrounding branch, the queries align with other text tokens that carry surrounding environment information, making the attention maps accurately capture the layout described in the text. Benefiting from the proposed dual-branch design, the queries are allowed to focus on points relevant to each branch's specific objective. Moreover, we design an adaptive position encoding method for each branch respectively. In the target object branch, the position encoding relies on the relative positions between seed points and predicted 3D boxes. In the surrounding branch, the attention map is additionally guided by the confidence between visual and text features, enabling the queries to focus on points that have valuable layout information. Extensive experiments demonstrate that we surpass the state-of-the-art on two widely adopted 3D visual grounding datasets, ScanRefer and Nr3D.
- Abstract(参考訳): 3Dビジュアルグラウンドは、特定の自然言語記述にマッチする3Dポイントクラウドシーン内のオブジェクトを特定することを目的としている。
これは、モデルが対象のオブジェクト自体にフォーカスするだけでなく、その記述が満たされているかどうかを判断するために周囲の環境も考慮する必要がある。
これまでのほとんどの研究は、同じモジュール内で両方のタスクを達成しようとするが、容易に注意をそらすことになる。
この目的のために、ターゲットオブジェクト属性と周辺レイアウトを別々にデコードするデュアルブランチデコーディングフレームワークPD-APEを提案する。
具体的には、ターゲットオブジェクトブランチでは、デコーダがターゲットオブジェクトの特徴(例、カテゴリ、色)を記述するテキストトークンを処理し、ターゲットオブジェクト自体に注意を払うようにクエリを誘導する。
周辺ブランチでは、クエリは周囲の環境情報を保持する他のテキストトークンと一致し、アテンションマップはテキストに記述されたレイアウトを正確にキャプチャする。
提案されたデュアルブランチ設計に適合し、クエリは各ブランチの特定の目的に関連する点に集中することができる。
さらに,各分岐に対して適応的な位置符号化法を設計する。
対象のオブジェクトブランチでは、位置エンコーディングはシードポイントと予測された3Dボックスの間の相対的な位置に依存する。
周辺ブランチでは、アテンションマップは視覚的特徴とテキスト的特徴の信頼性によってガイドされ、クエリは貴重なレイアウト情報を持つポイントに集中することができる。
ScanReferとNr3Dという、広く採用されている2つの3Dビジュアルグラウンドデータセットで、私たちは最先端の技術を超越していることが、大規模な実験で示されています。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - PointCG: Self-supervised Point Cloud Learning via Joint Completion and Generation [32.04698431036215]
本稿では,マスク付きポイントモデリング(MPM)と3D-to-2D生成という2つの一般的な手法を,事前学習フレームワーク内にプリテキストタスクとして統合する。
我々はこれらの2つの手法によって提供される空間的認識と精密な監督を活用して、それぞれの限界に対処する。
論文 参考訳(メタデータ) (2024-11-09T02:38:29Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - See It All: Contextualized Late Aggregation for 3D Dense Captioning [38.14179122810755]
3D高密度キャプションは、オブジェクトを3Dシーンでローカライズし、各オブジェクトに対して記述文を生成するタスクである。
3D高密度キャプションにおける最近のアプローチでは、オブジェクト検出から手作りの部品を使わずにエンドツーエンドのパイプラインを構築するためのトランスフォーマー・エンコーダ・デコーダ・フレームワークが採用されている。
SIA(See-It-All)は3次元高密度キャプションに係わるトランスフォーマーパイプラインであり,遅延アグリゲーションと呼ばれる新しいパラダイムを導入している。
論文 参考訳(メタデータ) (2024-08-14T16:19:18Z) - Bi-directional Contextual Attention for 3D Dense Captioning [38.022425401910894]
3Dシークエンスキャプションは、オブジェクトのローカライゼーションと、各オブジェクトの3Dシーンにおける記述の生成を含むタスクである。
最近のアプローチでは、オブジェクトペアとの関係をモデル化したり、オブジェクトの最も近い特徴を集約したりすることで、コンテキスト情報を組み込もうとしている。
変換器エンコーダ・デコーダパイプラインであるBiCAを導入し,2方向コンテキストアテンションを持つ各オブジェクトに対して3次元の高密度キャプションを行う。
論文 参考訳(メタデータ) (2024-08-13T06:25:54Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - MLCVNet: Multi-Level Context VoteNet for 3D Object Detection [51.45832752942529]
我々は,最先端のVoteNet上に構築された3次元オブジェクトを相関的に認識するためのマルチレベルコンテキストVoteNet(MLCVNet)を提案する。
異なるレベルのコンテキスト情報をエンコードするために,VoteNetの投票・分類段階に3つのコンテキストモジュールを導入する。
本手法は,3次元物体検出データセットの精度向上に有効な手法である。
論文 参考訳(メタデータ) (2020-04-12T19:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。