論文の概要: IPDN: Image-enhanced Prompt Decoding Network for 3D Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2501.04995v1
- Date: Thu, 09 Jan 2025 06:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:28.136795
- Title: IPDN: Image-enhanced Prompt Decoding Network for 3D Referring Expression Segmentation
- Title(参考訳): IPDN:3次元参照表現セグメンテーションのための画像強調プロンプトデコーディングネットワーク
- Authors: Qi Chen, Changli Wu, Jiayi Ji, Yiwei Ma, Danni Yang, Xiaoshuai Sun,
- Abstract要約: 3D参照式(3D-RES)は、所定の式に基づいてクラウドシーンをセグメント化することを目的としている。
既存の3D-RESアプローチでは、機能の曖昧さと意図の曖昧さという2つの大きな課題に直面している。
本稿では,画像強化型Prompt Decoding Network (IPDN)を導入し,モデルの推論能力を向上する。
- 参考スコア(独自算出の注目度): 29.714642487981358
- License:
- Abstract: 3D Referring Expression Segmentation (3D-RES) aims to segment point cloud scenes based on a given expression. However, existing 3D-RES approaches face two major challenges: feature ambiguity and intent ambiguity. Feature ambiguity arises from information loss or distortion during point cloud acquisition due to limitations such as lighting and viewpoint. Intent ambiguity refers to the model's equal treatment of all queries during the decoding process, lacking top-down task-specific guidance. In this paper, we introduce an Image enhanced Prompt Decoding Network (IPDN), which leverages multi-view images and task-driven information to enhance the model's reasoning capabilities. To address feature ambiguity, we propose the Multi-view Semantic Embedding (MSE) module, which injects multi-view 2D image information into the 3D scene and compensates for potential spatial information loss. To tackle intent ambiguity, we designed a Prompt-Aware Decoder (PAD) that guides the decoding process by deriving task-driven signals from the interaction between the expression and visual features. Comprehensive experiments demonstrate that IPDN outperforms the state-ofthe-art by 1.9 and 4.2 points in mIoU metrics on the 3D-RES and 3D-GRES tasks, respectively.
- Abstract(参考訳): 3D参照式セグメンテーション(3D-RES)は、所定の式に基づいてクラウドシーンをセグメントすることを目的としている。
しかし、既存の3D-RESアプローチは2つの大きな課題に直面している。
特徴の曖昧さは、光や視点などの制限により、ポイントクラウドの取得中に情報損失や歪みによって生じる。
インテント曖昧性(Intent ambiguity)とは、デコードプロセス中にモデルが全てのクエリを平等に扱うことであり、トップダウンのタスク固有のガイダンスが欠如している。
本稿では,多視点画像とタスク駆動情報を活用した画像拡張型プロンプトデコーディングネットワーク(IPDN)を提案する。
特徴の曖昧さに対処するため,マルチビュー2次元画像情報を3次元シーンに注入し,空間情報損失を補うマルチビューセマンティック・エンベディング(MSE)モジュールを提案する。
意図のあいまいさに対処するために,タスク駆動型信号を表現と視覚的特徴の相互作用から導出し,デコードプロセスのガイドとなるPrompt-Aware Decoder (PAD) を設計した。
総合的な実験により、PDNは3D-RESと3D-GRESのタスクでmIoUの計測値において、それぞれ1.9と4.2の精度で最先端であることが示された。
関連論文リスト
- BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence [11.91274849875519]
画像中心の3次元知覚モデルBIP3Dを導入し,点中心の手法の限界を克服する。
我々は、事前学習された2次元視覚基盤モデルを利用して意味理解を強化し、空間理解を改善するために空間拡張モジュールを導入する。
我々の実験では、BIP3Dは、EmbodiedScanベンチマークで現在の最先端結果より優れており、3D検出タスクでは5.69%、視覚的グラウンドタスクでは15.25%の改善が達成されている。
論文 参考訳(メタデータ) (2024-11-22T11:35:42Z) - PEVA-Net: Prompt-Enhanced View Aggregation Network for Zero/Few-Shot Multi-View 3D Shape Recognition [8.15444057380305]
我々は、ゼロ/フェーショットの3D形状認識に対処するために、大きな視覚言語モデルであるCLIPを活用することに重点を置いている。
本稿では,0/fwショット3D形状認識を同時に行うために,Prompt-Enhanced View Aggregation Network (PEVA-Net)を提案する。
論文 参考訳(メタデータ) (2024-04-30T00:16:59Z) - Weakly Supervised Monocular 3D Detection with a Single-View Image [58.57978772009438]
モノクロ3D検出は、単一視点画像からの正確な3Dオブジェクトのローカライゼーションを目的としている。
SKD-WM3Dは弱い教師付き単分子3D検出フレームワークである。
我々は,SKD-WM3Dが最先端技術を超え,多くの完全教師付き手法と同等であることを示した。
論文 参考訳(メタデータ) (2024-02-29T13:26:47Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - Unsupervised Style-based Explicit 3D Face Reconstruction from Single
Image [10.1205208477163]
本研究では,Unsupervised 2D to Explicit 3D Style Transferを解くための一般的な逆学習フレームワークを提案する。
具体的には、Wuらによる教師なし明示的な3D再構成ネットワークと、StarGAN-v2というジェネレーティブ・アドバイザリ・ネットワーク(GAN)の2つのアーキテクチャを統合する。
提案手法は,DepthNetを3次元再構成で,Pix2NeRFを条件付き転送で,よく確立されたソリューションよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T21:25:06Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。