論文の概要: Explicitly Guided Information Interaction Network for Cross-modal Point Cloud Completion
- arxiv url: http://arxiv.org/abs/2407.02887v3
- Date: Tue, 23 Jul 2024 03:03:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 22:14:13.705393
- Title: Explicitly Guided Information Interaction Network for Cross-modal Point Cloud Completion
- Title(参考訳): クロスモーダル・ポイント・クラウド・コンプリートのための明示的ガイド付き情報対話ネットワーク
- Authors: Hang Xu, Chen Long, Wenxiao Zhang, Yuan Liu, Zhen Cao, Zhen Dong, Bisheng Yang,
- Abstract要約: 本稿では,ビュー誘導ポイントクラウドコンプリートタスクのモデルであるEGIInet(Explicitly Guided Information Interaction Network)を紹介する。
EGIInetは、完了タスクの幾何学的性質を活用することにより、2つのモードからの情報を効率的に結合する。
本稿では,ネットワークが画像内の重要な情報を特定するのに役立つ情報インタラクション戦略を提案する。
- 参考スコア(独自算出の注目度): 34.102157812175854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore a novel framework, EGIInet (Explicitly Guided Information Interaction Network), a model for View-guided Point cloud Completion (ViPC) task, which aims to restore a complete point cloud from a partial one with a single view image. In comparison with previous methods that relied on the global semantics of input images, EGIInet efficiently combines the information from two modalities by leveraging the geometric nature of the completion task. Specifically, we propose an explicitly guided information interaction strategy supported by modal alignment for point cloud completion. First, in contrast to previous methods which simply use 2D and 3D backbones to encode features respectively, we unified the encoding process to promote modal alignment. Second, we propose a novel explicitly guided information interaction strategy that could help the network identify critical information within images, thus achieving better guidance for completion. Extensive experiments demonstrate the effectiveness of our framework, and we achieved a new state-of-the-art (+16% CD over XMFnet) in benchmark datasets despite using fewer parameters than the previous methods. The pre-trained model and code and are available at https://github.com/WHU-USI3DV/EGIInet.
- Abstract(参考訳): 本稿では,ビュー誘導ポイントクラウドコンプリート(ViPC)タスクのモデルであるEGIInet(Explicitly Guided Information Interaction Network)について検討する。
入力画像のグローバルなセマンティクスに依存する従来の手法と比較して、EGIInetは、完成タスクの幾何学的性質を活用して、2つのモードからの情報を効率的に組み合わせている。
具体的には、ポイントクラウド完了のためのモーダルアライメントをサポートする、明示的にガイドされた情報インタラクション戦略を提案する。
まず, 2D と 3D のバックボーンを使ってそれぞれ特徴を符号化する従来の手法とは対照的に,符号化処理を統一してモーダルアライメントを促進する。
第2に,ネットワークが画像内の重要な情報を識別する上で有効な情報インタラクション戦略を提案する。
我々は,従来の手法に比べてパラメータが少ないにもかかわらず,ベンチマークデータセットに新たな最先端(+16% CD over XMFnet)を達成した。
事前訓練されたモデルとコードはhttps://github.com/WHU-USI3DV/EGIInetで入手できる。
関連論文リスト
- Point-In-Context: Understanding Point Cloud via In-Context Learning [67.20277182808992]
In-context Learningによる3Dポイントクラウド理解のための新しいフレームワークであるPoint-In-Context(PIC)を紹介した。
マスク付き点モデリングを3次元点群に効果的に拡張するという技術的課題に,Joint Smplingモジュールを導入して対処する。
In-Context LabelingとIn-Context Enhancingという2つの新しいトレーニング戦略を提案し、PICの拡張版であるPoint-In-Context-Segmenter(PIC-S)を作成している。
論文 参考訳(メタデータ) (2024-04-18T17:32:32Z) - Cross-Modal Information-Guided Network using Contrastive Learning for
Point Cloud Registration [17.420425069785946]
本稿では,ポイントクラウド登録のための新しいCross-Modal Information-Guided Network(CMIGNet)を提案する。
まず,点雲から投影された画像を取り込んで,アテンション機構を用いてモーダルな特徴を融合する。
コントラスト学習戦略は2つあり、すなわち、コントラスト学習とクロスモーダルコントラスト学習が重なり合う。
論文 参考訳(メタデータ) (2023-11-02T12:56:47Z) - Fine-grained Text and Image Guided Point Cloud Completion with CLIP
Model [15.625396852353655]
本稿では,ポイントクラウド補完のための新しいマルチモーダル融合ネットワークを提案する。
我々は、大量の画像テキストペアで訓練された事前学習された視覚言語モデルを採用する。
点雲完了のための細粒度テキスト記述の有効性をさらに検討するため,細粒度記述を用いたテキストコーパスを構築した。
論文 参考訳(メタデータ) (2023-08-17T03:05:18Z) - Let Images Give You More:Point Cloud Cross-Modal Training for Shape
Analysis [43.13887916301742]
本稿では、ポイントクラウド分析を促進するために、シンプルだが効果的なポイントクラウドクロスモダリティトレーニング(PointCMT)戦略を導入する。
ビューイメージから補助的知識を効果的に獲得するために,教師学生のための枠組みを開発し,知識蒸留問題としてクロスモーダル学習を定式化する。
我々は、魅力的なバックボーン、すなわちPointCMT、PointNet++、PointMLPを備えた様々なデータセットにおいて、大きな利益を検証した。
論文 参考訳(メタデータ) (2022-10-09T09:35:22Z) - Image Understands Point Cloud: Weakly Supervised 3D Semantic
Segmentation via Association Learning [59.64695628433855]
ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。
基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。
提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
論文 参考訳(メタデータ) (2022-09-16T07:59:04Z) - GFNet: Geometric Flow Network for 3D Point Cloud Semantic Segmentation [91.15865862160088]
本稿では,異なるビュー間の幾何対応性を検討するための幾何フローネットワーク (GFNet) を提案する。
具体的には、異なる視点にまたがって補完情報を双方向に整列し、伝播する新しい幾何フローモジュール(GFM)を考案する。
論文 参考訳(メタデータ) (2022-07-06T11:48:08Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - View-Guided Point Cloud Completion [43.139758470826806]
ViPC(ビューガイドポイントクラウド補完)は、欠落している重要なグローバル構造情報を追加のシングルビュー画像から取得します。
提案手法は,新しい大規模データセットにおいて,既存ソリューションよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2021-04-12T17:35:45Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。