Fugu-MT 論文翻訳(概要): Fine-grained Text and Image Guided Point Cloud Completion with CLIP Model

論文の概要: Fine-grained Text and Image Guided Point Cloud Completion with CLIP Model

arxiv url: http://arxiv.org/abs/2308.08754v1
Date: Thu, 17 Aug 2023 03:05:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 18:17:46.915649
Title: Fine-grained Text and Image Guided Point Cloud Completion with CLIP Model
Title（参考訳）: CLIPモデルによる微細テキストと画像ガイドポイントクラウド補完
Authors: Wei Song, Jun Zhou, Mingjie Wang, Hongchen Tan, Nannan Li, Xiuping Liu
Abstract要約: 本稿では,ポイントクラウド補完のための新しいマルチモーダル融合ネットワークを提案する。我々は、大量の画像テキストペアで訓練された事前学習された視覚言語モデルを採用する。点雲完了のための細粒度テキスト記述の有効性をさらに検討するため,細粒度記述を用いたテキストコーパスを構築した。
参考スコア（独自算出の注目度）: 15.625396852353655
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper focuses on the recently popular task of point cloud completion guided by multimodal information. Although existing methods have achieved excellent performance by fusing auxiliary images, there are still some deficiencies, including the poor generalization ability of the model and insufficient fine-grained semantic information for extracted features. In this work, we propose a novel multimodal fusion network for point cloud completion, which can simultaneously fuse visual and textual information to predict the semantic and geometric characteristics of incomplete shapes effectively. Specifically, to overcome the lack of prior information caused by the small-scale dataset, we employ a pre-trained vision-language model that is trained with a large amount of image-text pairs. Therefore, the textual and visual encoders of this large-scale model have stronger generalization ability. Then, we propose a multi-stage feature fusion strategy to fuse the textual and visual features into the backbone network progressively. Meanwhile, to further explore the effectiveness of fine-grained text descriptions for point cloud completion, we also build a text corpus with fine-grained descriptions, which can provide richer geometric details for 3D shapes. The rich text descriptions can be used for training and evaluating our network. Extensive quantitative and qualitative experiments demonstrate the superior performance of our method compared to state-of-the-art point cloud completion networks.
Abstract（参考訳）: 本稿では,マルチモーダル情報によって誘導されるポイントクラウド補完の課題に焦点をあてる。既存の手法は補助画像の融合によって優れた性能を保っているが,モデルの一般化能力の低下や,抽出した特徴に対する詳細な意味情報不足など,いくつかの欠点がある。本研究では,不完全な形状の意味的特徴と幾何学的特徴を効果的に予測するために,視覚情報とテキスト情報を同時に融合する多モード融合ネットワークを提案する。具体的には、小規模データセットによる事前情報不足を克服するために、大量の画像テキストペアでトレーニングされた事前学習された視覚言語モデルを用いる。したがって、この大規模モデルのテキストエンコーダとビジュアルエンコーダはより強力な一般化能力を有する。そこで本研究では,テキストと視覚機能をバックボーンネットワークに徐々に融合させる多段階機能融合戦略を提案する。一方,ポイントクラウド完成のための細粒度テキスト記述の有効性をさらに探究するために,細粒度記述を含むテキストコーパスを構築し,3次元形状の幾何学的詳細を提供する。リッチなテキスト記述は、ネットワークのトレーニングと評価に使用できます。大規模定量的および定性的実験は,最先端のクラウド完備化ネットワークと比較して,本手法の優れた性能を示す。

関連論文リスト

RARE: Refine Any Registration of Pairwise Point Clouds via Zero-Shot Learning [23.462795323028658]
近年,画像中の意味的対応を確立するために拡散特徴を用いることの可能性が実証されている。そこで本研究では,ポイントクラウド登録アルゴリズムを改良するためのゼロショット手法を提案する。
論文参考訳（メタデータ） (2025-07-26T13:34:39Z)
Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文参考訳（メタデータ） (2024-11-22T21:38:51Z)
Explicitly Guided Information Interaction Network for Cross-modal Point Cloud Completion [34.102157812175854]
本稿では,ビュー誘導ポイントクラウドコンプリートタスクのモデルであるEGIInet(Explicitly Guided Information Interaction Network)を紹介する。 EGIInetは、完了タスクの幾何学的性質を活用することにより、2つのモードからの情報を効率的に結合する。本稿では,ネットワークが画像内の重要な情報を特定するのに役立つ情報インタラクション戦略を提案する。
論文参考訳（メタデータ） (2024-07-03T08:03:56Z)
ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文参考訳（メタデータ） (2024-06-17T19:31:24Z)
Advanced Multimodal Deep Learning Architecture for Image-Text Matching [33.8315200009152]
画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。本稿では、視覚情報のための深層ニューラルネットワークの高レベル抽象表現能力と、テキスト意味理解のための自然言語処理モデルの利点を組み合わせた高度なマルチモーダルディープラーニングアーキテクチャを提案する。実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。
論文参考訳（メタデータ） (2024-06-13T08:32:24Z)
Language-Assisted 3D Scene Understanding [17.663583203177197]
我々は,ポイントクラウド特徴学習(LAST-PCL)のための言語支援アプローチを提案する。我々は,テキストの先行性を損なうことなく,非冗長性と特徴次元の低減を実現する。提案手法は意味的に意味のあるポイントクラウドの特徴を学習し、3Dセマンティックセグメンテーション、3Dオブジェクト検出、3Dシーン分類タスクにおける最先端または同等のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-12-18T18:54:56Z)
Human as Points: Explicit Point-based 3D Human Reconstruction from Single-view RGB Images [78.56114271538061]
我々はHaPと呼ばれる明示的なポイントベース人間再構築フレームワークを導入する。提案手法は,3次元幾何学空間における完全明示的な点雲推定,操作,生成,洗練が特徴である。我々の結果は、完全に明示的で幾何学中心のアルゴリズム設計へのパラダイムのロールバックを示すかもしれない。
論文参考訳（メタデータ） (2023-11-06T05:52:29Z)
See More and Know More: Zero-shot Point Cloud Segmentation via Multi-modal Visual Data [22.53879737713057]
ゼロショットポイントクラウドセグメンテーションは、トレーニングフェーズで目に見えないポイントクラウド内の新しいオブジェクトを認識することができるディープモデルを作ることを目的としている。本稿では,点群と画像の相補的な情報をより正確な視覚・意味的アライメントに活用するための,新しいマルチモーダルゼロショット学習法を提案する。
論文参考訳（メタデータ） (2023-07-20T11:32:51Z)
Ponder: Point Cloud Pre-training via Neural Rendering [93.34522605321514]
本稿では,識別可能なニューラルエンコーダによる点雲表現の自己教師型学習手法を提案する。学習したポイントクラウドは、3D検出やセグメンテーションといったハイレベルなレンダリングタスクだけでなく、3D再構成や画像レンダリングといった低レベルなタスクを含む、さまざまなダウンストリームタスクに簡単に統合できる。
論文参考訳（メタデータ） (2022-12-31T08:58:39Z)
Self-Supervised Feature Learning from Partial Point Clouds via Pose Disentanglement [35.404285596482175]
部分点雲から情報表現を学習するための,新たな自己教師型フレームワークを提案する。コンテンツとポーズ属性の両方を含むLiDARでスキャンされた部分点雲を利用する。提案手法は,既存の自己教師付き手法に勝るだけでなく,合成および実世界のデータセット間でのより優れた一般化性を示す。
論文参考訳（メタデータ） (2022-01-09T14:12:50Z)
DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文参考訳（メタデータ） (2021-12-02T18:59:32Z)
Voxel-based Network for Shape Completion by Leveraging Edge Generation [76.23436070605348]
エッジ生成(VE-PCN)を利用した点雲補完のためのボクセルネットワークを開発した。まず点雲を正規のボクセル格子に埋め込み、幻覚した形状のエッジの助けを借りて完全な物体を生成する。この分離されたアーキテクチャとマルチスケールのグリッド機能学習は、より現実的な表面上の詳細を生成することができる。
論文参考訳（メタデータ） (2021-08-23T05:10:29Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。