論文の概要: Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation
- arxiv url: http://arxiv.org/abs/2308.02982v1
- Date: Sun, 6 Aug 2023 01:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 17:30:39.478734
- Title: Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation
- Title(参考訳): 第1印象を超えて: 総合的3次元表現のための統合型マルチモーダルキューの統合
- Authors: Haowei Wang, Jiji Tang, Jiayi Ji, Xiaoshuai Sun, Rongsheng Zhang,
Yiwei Ma, Minda Zhao, Lincheng Li, zeng zhao, Tangjie Lv, Rongrong Ji
- Abstract要約: 既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
- 参考スコア(独自算出の注目度): 71.9383216574371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, 3D representation learning has turned to 2D vision-language
pre-trained models to overcome data scarcity challenges. However, existing
methods simply transfer 2D alignment strategies, aligning 3D representations
with single-view 2D images and coarse-grained parent category text. These
approaches introduce information degradation and insufficient synergy issues,
leading to performance loss. Information degradation arises from overlooking
the fact that a 3D representation should be equivalent to a series of
multi-view images and more fine-grained subcategory text. Insufficient synergy
neglects the idea that a robust 3D representation should align with the joint
vision-language space, rather than independently aligning with each modality.
In this paper, we propose a multi-view joint modality modeling approach, termed
JM3D, to obtain a unified representation for point cloud, text, and image.
Specifically, a novel Structured Multimodal Organizer (SMO) is proposed to
address the information degradation issue, which introduces contiguous
multi-view images and hierarchical text to enrich the representation of vision
and language modalities. A Joint Multi-modal Alignment (JMA) is designed to
tackle the insufficient synergy problem, which models the joint modality by
incorporating language knowledge into the visual modality. Extensive
experiments on ModelNet40 and ScanObjectNN demonstrate the effectiveness of our
proposed method, JM3D, which achieves state-of-the-art performance in zero-shot
3D classification. JM3D outperforms ULIP by approximately 4.3% on PointMLP and
achieves an improvement of up to 6.5% accuracy on PointNet++ in top-1 accuracy
for zero-shot 3D classification on ModelNet40. The source code and trained
models for all our experiments are publicly available at
https://github.com/Mr-Neko/JM3D.
- Abstract(参考訳): 近年,データの不足を克服するために,3次元表現学習が2次元視覚言語事前学習モデルに転換されている。
しかし、既存の手法では2Dアライメント戦略を単純に伝達し、単一ビューの2D画像と粗い親カテゴリテキストに3D表現を整列させる。
これらのアプローチは、情報劣化と相乗効果の不十分な問題を導入し、性能を損なう。
情報劣化は、3D表現が一連の多視点画像とよりきめ細かなサブカテゴリテキストと等価であるべきという事実から生じる。
十分でないシナジーは、ロバストな3次元表現はそれぞれのモダリティと独立に整合するのではなく、共同視覚言語空間と整合するべきだという考えを無視している。
本稿では,jm3dと呼ばれる多視点共同モダリティモデリング手法を提案し,ポイントクラウド,テキスト,画像の統一表現を得る。
具体的には, 情報劣化問題に対処するために, 視覚表現と言語モダリティを豊かにするために, 連続した多視点画像と階層テキストを導入する新しい構造化マルチモーダルオーガナイザ (smo) を提案する。
ジョイント・マルチモーダルアライメント(jma)は、視覚モダリティに言語知識を取り入れることでジョイントモダリティをモデル化する、不十分なシナジー問題に対処するために設計された。
ModelNet40 と ScanObjectNN の大規模実験により,提案手法 JM3D の有効性が実証された。
JM3Dは、ポイントMLPでULIPを約4.3%上回り、ModelNet40でゼロショットの3D分類を行うため、ポイントネット++で最大6.5%の精度向上を実現している。
すべての実験のソースコードとトレーニングされたモデルは、https://github.com/mr-neko/jm3dで公開されています。
関連論文リスト
- Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。
様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。
2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文 参考訳(メタデータ) (2024-03-14T16:13:00Z) - TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [28.112402580426174]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。
TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文 参考訳(メタデータ) (2024-02-28T17:18:38Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - JM3D & JM3D-LLM: Elevating 3D Understanding with Joint Multi-modal Cues [68.76032126906743]
私たちは、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。
SMO(Structured Multimodal Organizer)は、複数のビューと階層的なテキストによる視覚言語表現の強化である。
我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。
論文 参考訳(メタデータ) (2023-10-14T06:13:20Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。
入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。
NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。
実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - Multimodal Semi-Supervised Learning for 3D Objects [19.409295848915388]
本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。
本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
論文 参考訳(メタデータ) (2021-10-22T05:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。