論文の概要: Fine-grained Text and Image Guided Point Cloud Completion with CLIP
Model
- arxiv url: http://arxiv.org/abs/2308.08754v1
- Date: Thu, 17 Aug 2023 03:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 18:17:46.915649
- Title: Fine-grained Text and Image Guided Point Cloud Completion with CLIP
Model
- Title(参考訳): CLIPモデルによる微細テキストと画像ガイドポイントクラウド補完
- Authors: Wei Song, Jun Zhou, Mingjie Wang, Hongchen Tan, Nannan Li, Xiuping Liu
- Abstract要約: 本稿では,ポイントクラウド補完のための新しいマルチモーダル融合ネットワークを提案する。
我々は、大量の画像テキストペアで訓練された事前学習された視覚言語モデルを採用する。
点雲完了のための細粒度テキスト記述の有効性をさらに検討するため,細粒度記述を用いたテキストコーパスを構築した。
- 参考スコア(独自算出の注目度): 15.625396852353655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the recently popular task of point cloud completion
guided by multimodal information. Although existing methods have achieved
excellent performance by fusing auxiliary images, there are still some
deficiencies, including the poor generalization ability of the model and
insufficient fine-grained semantic information for extracted features. In this
work, we propose a novel multimodal fusion network for point cloud completion,
which can simultaneously fuse visual and textual information to predict the
semantic and geometric characteristics of incomplete shapes effectively.
Specifically, to overcome the lack of prior information caused by the
small-scale dataset, we employ a pre-trained vision-language model that is
trained with a large amount of image-text pairs. Therefore, the textual and
visual encoders of this large-scale model have stronger generalization ability.
Then, we propose a multi-stage feature fusion strategy to fuse the textual and
visual features into the backbone network progressively. Meanwhile, to further
explore the effectiveness of fine-grained text descriptions for point cloud
completion, we also build a text corpus with fine-grained descriptions, which
can provide richer geometric details for 3D shapes. The rich text descriptions
can be used for training and evaluating our network. Extensive quantitative and
qualitative experiments demonstrate the superior performance of our method
compared to state-of-the-art point cloud completion networks.
- Abstract(参考訳): 本稿では,マルチモーダル情報によって誘導されるポイントクラウド補完の課題に焦点をあてる。
既存の手法は補助画像の融合によって優れた性能を保っているが,モデルの一般化能力の低下や,抽出した特徴に対する詳細な意味情報不足など,いくつかの欠点がある。
本研究では,不完全な形状の意味的特徴と幾何学的特徴を効果的に予測するために,視覚情報とテキスト情報を同時に融合する多モード融合ネットワークを提案する。
具体的には、小規模データセットによる事前情報不足を克服するために、大量の画像テキストペアでトレーニングされた事前学習された視覚言語モデルを用いる。
したがって、この大規模モデルのテキストエンコーダとビジュアルエンコーダはより強力な一般化能力を有する。
そこで本研究では,テキストと視覚機能をバックボーンネットワークに徐々に融合させる多段階機能融合戦略を提案する。
一方,ポイントクラウド完成のための細粒度テキスト記述の有効性をさらに探究するために,細粒度記述を含むテキストコーパスを構築し,3次元形状の幾何学的詳細を提供する。
リッチなテキスト記述は、ネットワークのトレーニングと評価に使用できます。
大規模定量的および定性的実験は,最先端のクラウド完備化ネットワークと比較して,本手法の優れた性能を示す。
関連論文リスト
- Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Language-Assisted 3D Scene Understanding [17.663583203177197]
我々は,ポイントクラウド特徴学習(LAST-PCL)のための言語支援アプローチを提案する。
我々は,テキストの先行性を損なうことなく,非冗長性と特徴次元の低減を実現する。
提案手法は意味的に意味のあるポイントクラウドの特徴を学習し、3Dセマンティックセグメンテーション、3Dオブジェクト検出、3Dシーン分類タスクにおける最先端または同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-18T18:54:56Z) - Human as Points: Explicit Point-based 3D Human Reconstruction from
Single-view RGB Images [78.56114271538061]
我々はHaPと呼ばれる明示的なポイントベース人間再構築フレームワークを導入する。
提案手法は,3次元幾何学空間における完全明示的な点雲推定,操作,生成,洗練が特徴である。
我々の結果は、完全に明示的で幾何学中心のアルゴリズム設計へのパラダイムのロールバックを示すかもしれない。
論文 参考訳(メタデータ) (2023-11-06T05:52:29Z) - Cross-Modal Information-Guided Network using Contrastive Learning for
Point Cloud Registration [17.420425069785946]
本稿では,ポイントクラウド登録のための新しいCross-Modal Information-Guided Network(CMIGNet)を提案する。
まず,点雲から投影された画像を取り込んで,アテンション機構を用いてモーダルな特徴を融合する。
コントラスト学習戦略は2つあり、すなわち、コントラスト学習とクロスモーダルコントラスト学習が重なり合う。
論文 参考訳(メタデータ) (2023-11-02T12:56:47Z) - See More and Know More: Zero-shot Point Cloud Segmentation via
Multi-modal Visual Data [22.53879737713057]
ゼロショットポイントクラウドセグメンテーションは、トレーニングフェーズで目に見えないポイントクラウド内の新しいオブジェクトを認識することができるディープモデルを作ることを目的としている。
本稿では,点群と画像の相補的な情報をより正確な視覚・意味的アライメントに活用するための,新しいマルチモーダルゼロショット学習法を提案する。
論文 参考訳(メタデータ) (2023-07-20T11:32:51Z) - Ponder: Point Cloud Pre-training via Neural Rendering [93.34522605321514]
本稿では,識別可能なニューラルエンコーダによる点雲表現の自己教師型学習手法を提案する。
学習したポイントクラウドは、3D検出やセグメンテーションといったハイレベルなレンダリングタスクだけでなく、3D再構成や画像レンダリングといった低レベルなタスクを含む、さまざまなダウンストリームタスクに簡単に統合できる。
論文 参考訳(メタデータ) (2022-12-31T08:58:39Z) - FBNet: Feedback Network for Point Cloud Completion [35.89264923599902]
本稿では,ポイントクラウド補完のための新しいフィードバックネットワーク(FBNet)を提案する。
フィードバック接続を構築する上での最大の課題は、現在の機能とその後の機能とのミスマッチである。
これを解決するために、クロスアテンション戦略を通じて、クロスアテンショントランスフォーマーはフィードバック機能からの効率的な情報を利用する。
論文 参考訳(メタデータ) (2022-10-08T09:12:37Z) - Self-Supervised Feature Learning from Partial Point Clouds via Pose
Disentanglement [35.404285596482175]
部分点雲から情報表現を学習するための,新たな自己教師型フレームワークを提案する。
コンテンツとポーズ属性の両方を含むLiDARでスキャンされた部分点雲を利用する。
提案手法は,既存の自己教師付き手法に勝るだけでなく,合成および実世界のデータセット間でのより優れた一般化性を示す。
論文 参考訳(メタデータ) (2022-01-09T14:12:50Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Voxel-based Network for Shape Completion by Leveraging Edge Generation [76.23436070605348]
エッジ生成(VE-PCN)を利用した点雲補完のためのボクセルネットワークを開発した。
まず点雲を正規のボクセル格子に埋め込み、幻覚した形状のエッジの助けを借りて完全な物体を生成する。
この分離されたアーキテクチャとマルチスケールのグリッド機能学習は、より現実的な表面上の詳細を生成することができる。
論文 参考訳(メタデータ) (2021-08-23T05:10:29Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。