論文の概要: PD-TPE: Parallel Decoder with Text-guided Position Encoding for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2407.14491v1
- Date: Fri, 19 Jul 2024 17:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 16:35:50.894913
- Title: PD-TPE: Parallel Decoder with Text-guided Position Encoding for 3D Visual Grounding
- Title(参考訳): PD-TPE:3次元視覚グラウンドのためのテキスト誘導位置符号化による並列デコーダ
- Authors: Chenshu Hou, Liang Peng, Xiaopei Wu, Wenxiao Wang, Xiaofei He,
- Abstract要約: 3Dビジュアルグラウンドティングは、3Dポイントクラウドシーンで、自由形式の自然言語記述によって言及される対象物を見つけることを目的としている。
ダブルブランチデコーダを用いた視覚言語モデルPD-TPEを提案する。
我々は、広く採用されている2つの3Dビジュアルグラウンドデータセットの最先端を超越している。
- 参考スコア(独自算出の注目度): 20.422852022310945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D visual grounding aims to locate the target object mentioned by free-formed natural language descriptions in 3D point cloud scenes. Most previous work requires the encoder-decoder to simultaneously align the attribute information of the target object and its relational information with the surrounding environment across modalities. This causes the queries' attention to be dispersed, potentially leading to an excessive focus on points irrelevant to the input language descriptions. To alleviate these issues, we propose PD-TPE, a visual-language model with a double-branch decoder. The two branches perform proposal feature decoding and surrounding layout awareness in parallel. Since their attention maps are not influenced by each other, the queries focus on tokens relevant to each branch's specific objective. In particular, we design a novel Text-guided Position Encoding method, which differs between the two branches. In the main branch, the priori relies on the relative positions between tokens and predicted 3D boxes, which direct the model to pay more attention to tokens near the object; in the surrounding branch, it is guided by the similarity between visual and text features, so that the queries attend to tokens that can provide effective layout information. Extensive experiments demonstrate that we surpass the state-of-the-art on two widely adopted 3D visual grounding datasets, ScanRefer and NR3D, by 1.8% and 2.2%, respectively. Codes will be made publicly available.
- Abstract(参考訳): 3Dビジュアルグラウンドティングは、3Dポイントクラウドシーンで、自由形式の自然言語記述によって言及される対象物を見つけることを目的としている。
これまでのほとんどの作業では、エンコーダデコーダが対象オブジェクトの属性情報と周辺環境の関連情報を同時に調整する必要がある。
これはクエリの注意を分散させ、入力言語の記述に関係のない点に過剰な焦点をあてる可能性がある。
これらの問題を緩和するために,ダブルブランチデコーダを備えた視覚言語モデルPD-TPEを提案する。
2つのブランチは、提案機能の復号化と、周辺レイアウトの認識を並行して実行する。
彼らの注意マップは互いに影響を受けないので、クエリは各ブランチの特定の目的に関連するトークンに焦点を当てる。
特に,2つのブランチで異なるテキスト誘導位置符号化法を設計する。
メインブランチでは、プリオリはトークンと予測された3Dボックスの間の相対的な位置に依存し、モデルにオブジェクトの近くのトークンにもっと注意を向けるよう指示する。
ScanRefer と NR3D の2つの広く採用されているビジュアルグラウンドデータセットをそれぞれ 1.8% と 2.2% で上回った。
コードは公開されます。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - PointCG: Self-supervised Point Cloud Learning via Joint Completion and Generation [32.04698431036215]
本稿では,マスク付きポイントモデリング(MPM)と3D-to-2D生成という2つの一般的な手法を,事前学習フレームワーク内にプリテキストタスクとして統合する。
我々はこれらの2つの手法によって提供される空間的認識と精密な監督を活用して、それぞれの限界に対処する。
論文 参考訳(メタデータ) (2024-11-09T02:38:29Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - See It All: Contextualized Late Aggregation for 3D Dense Captioning [38.14179122810755]
3D高密度キャプションは、オブジェクトを3Dシーンでローカライズし、各オブジェクトに対して記述文を生成するタスクである。
3D高密度キャプションにおける最近のアプローチでは、オブジェクト検出から手作りの部品を使わずにエンドツーエンドのパイプラインを構築するためのトランスフォーマー・エンコーダ・デコーダ・フレームワークが採用されている。
SIA(See-It-All)は3次元高密度キャプションに係わるトランスフォーマーパイプラインであり,遅延アグリゲーションと呼ばれる新しいパラダイムを導入している。
論文 参考訳(メタデータ) (2024-08-14T16:19:18Z) - Bi-directional Contextual Attention for 3D Dense Captioning [38.022425401910894]
3Dシークエンスキャプションは、オブジェクトのローカライゼーションと、各オブジェクトの3Dシーンにおける記述の生成を含むタスクである。
最近のアプローチでは、オブジェクトペアとの関係をモデル化したり、オブジェクトの最も近い特徴を集約したりすることで、コンテキスト情報を組み込もうとしている。
変換器エンコーダ・デコーダパイプラインであるBiCAを導入し,2方向コンテキストアテンションを持つ各オブジェクトに対して3次元の高密度キャプションを行う。
論文 参考訳(メタデータ) (2024-08-13T06:25:54Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - MLCVNet: Multi-Level Context VoteNet for 3D Object Detection [51.45832752942529]
我々は,最先端のVoteNet上に構築された3次元オブジェクトを相関的に認識するためのマルチレベルコンテキストVoteNet(MLCVNet)を提案する。
異なるレベルのコンテキスト情報をエンコードするために,VoteNetの投票・分類段階に3つのコンテキストモジュールを導入する。
本手法は,3次元物体検出データセットの精度向上に有効な手法である。
論文 参考訳(メタデータ) (2020-04-12T19:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。