論文の概要: IPDN: Image-enhanced Prompt Decoding Network for 3D Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2501.04995v1
- Date: Thu, 09 Jan 2025 06:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 17:34:41.409077
- Title: IPDN: Image-enhanced Prompt Decoding Network for 3D Referring Expression Segmentation
- Title(参考訳): IPDN:3次元参照表現セグメンテーションのための画像強調プロンプトデコーディングネットワーク
- Authors: Qi Chen, Changli Wu, Jiayi Ji, Yiwei Ma, Danni Yang, Xiaoshuai Sun,
- Abstract要約: 3D参照式(3D-RES)は、所定の式に基づいてクラウドシーンをセグメント化することを目的としている。
既存の3D-RESアプローチでは、機能の曖昧さと意図の曖昧さという2つの大きな課題に直面している。
本稿では,画像強化型Prompt Decoding Network (IPDN)を導入し,モデルの推論能力を向上する。
- 参考スコア(独自算出の注目度): 29.714642487981358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Referring Expression Segmentation (3D-RES) aims to segment point cloud scenes based on a given expression. However, existing 3D-RES approaches face two major challenges: feature ambiguity and intent ambiguity. Feature ambiguity arises from information loss or distortion during point cloud acquisition due to limitations such as lighting and viewpoint. Intent ambiguity refers to the model's equal treatment of all queries during the decoding process, lacking top-down task-specific guidance. In this paper, we introduce an Image enhanced Prompt Decoding Network (IPDN), which leverages multi-view images and task-driven information to enhance the model's reasoning capabilities. To address feature ambiguity, we propose the Multi-view Semantic Embedding (MSE) module, which injects multi-view 2D image information into the 3D scene and compensates for potential spatial information loss. To tackle intent ambiguity, we designed a Prompt-Aware Decoder (PAD) that guides the decoding process by deriving task-driven signals from the interaction between the expression and visual features. Comprehensive experiments demonstrate that IPDN outperforms the state-ofthe-art by 1.9 and 4.2 points in mIoU metrics on the 3D-RES and 3D-GRES tasks, respectively.
- Abstract(参考訳): 3D参照式セグメンテーション(3D-RES)は、所定の式に基づいてクラウドシーンをセグメントすることを目的としている。
しかし、既存の3D-RESアプローチは2つの大きな課題に直面している。
特徴の曖昧さは、光や視点などの制限により、ポイントクラウドの取得中に情報損失や歪みによって生じる。
インテント曖昧性(Intent ambiguity)とは、デコードプロセス中にモデルが全てのクエリを平等に扱うことであり、トップダウンのタスク固有のガイダンスが欠如している。
本稿では,多視点画像とタスク駆動情報を活用した画像拡張型プロンプトデコーディングネットワーク(IPDN)を提案する。
特徴の曖昧さに対処するため,マルチビュー2次元画像情報を3次元シーンに注入し,空間情報損失を補うマルチビューセマンティック・エンベディング(MSE)モジュールを提案する。
意図のあいまいさに対処するために,タスク駆動型信号を表現と視覚的特徴の相互作用から導出し,デコードプロセスのガイドとなるPrompt-Aware Decoder (PAD) を設計した。
総合的な実験により、PDNは3D-RESと3D-GRESのタスクでmIoUの計測値において、それぞれ1.9と4.2の精度で最先端であることが示された。
関連論文リスト
- DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering [106.96097136553105]
3次元質問回答(3D QA)では、テキストによって記述された位置の3Dシーンを理解し、周囲の環境を判断し、その状況下での質問に答える必要がある。
既存の手法は通常、純粋な3次元点雲からのグローバルなシーン認識に依存しており、マルチビュー画像からのリッチな局所テクスチャの詳細の重要性を見落としている。
本稿では,DSPNet(Dual-vision Scene Perception Network)を提案する。
論文 参考訳(メタデータ) (2025-03-05T05:13:53Z) - BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence [11.91274849875519]
画像中心の3次元知覚モデルBIP3Dを導入し,点中心の手法の限界を克服する。
我々は、事前学習された2次元視覚基盤モデルを利用して意味理解を強化し、空間理解を改善するために空間拡張モジュールを導入する。
我々の実験では、BIP3Dは、EmbodiedScanベンチマークで現在の最先端結果より優れており、3D検出タスクでは5.69%、視覚的グラウンドタスクでは15.25%の改善が達成されている。
論文 参考訳(メタデータ) (2024-11-22T11:35:42Z) - PEVA-Net: Prompt-Enhanced View Aggregation Network for Zero/Few-Shot Multi-View 3D Shape Recognition [8.15444057380305]
我々は、ゼロ/フェーショットの3D形状認識に対処するために、大きな視覚言語モデルであるCLIPを活用することに重点を置いている。
本稿では,0/fwショット3D形状認識を同時に行うために,Prompt-Enhanced View Aggregation Network (PEVA-Net)を提案する。
論文 参考訳(メタデータ) (2024-04-30T00:16:59Z) - Weakly Supervised Monocular 3D Detection with a Single-View Image [58.57978772009438]
モノクロ3D検出は、単一視点画像からの正確な3Dオブジェクトのローカライゼーションを目的としている。
SKD-WM3Dは弱い教師付き単分子3D検出フレームワークである。
我々は,SKD-WM3Dが最先端技術を超え,多くの完全教師付き手法と同等であることを示した。
論文 参考訳(メタデータ) (2024-02-29T13:26:47Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。