論文の概要: MM-Mixing: Multi-Modal Mixing Alignment for 3D Understanding
- arxiv url: http://arxiv.org/abs/2405.18523v2
- Date: Mon, 19 Aug 2024 08:26:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 02:38:38.190955
- Title: MM-Mixing: Multi-Modal Mixing Alignment for 3D Understanding
- Title(参考訳): MMミキシング:3次元理解のためのマルチモード混合アライメント
- Authors: Jiaze Wang, Yi Wang, Ziyu Guo, Renrui Zhang, Donghao Zhou, Guangyong Chen, Anfeng Liu, Pheng-Ann Heng,
- Abstract要約: MM-Mixingは3次元理解のためのマルチモーダルミキシングアライメントフレームワークである。
提案する2段階学習パイプラインは,特徴レベルと入力レベルを混合して3Dエンコーダを最適化する。
MM-Mixingは,様々な学習シナリオにおけるベースライン性能を大幅に向上させることを示した。
- 参考スコア(独自算出の注目度): 64.65145700121442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MM-Mixing, a multi-modal mixing alignment framework for 3D understanding. MM-Mixing applies mixing-based methods to multi-modal data, preserving and optimizing cross-modal connections while enhancing diversity and improving alignment across modalities. Our proposed two-stage training pipeline combines feature-level and input-level mixing to optimize the 3D encoder. The first stage employs feature-level mixing with contrastive learning to align 3D features with their corresponding modalities. The second stage incorporates both feature-level and input-level mixing, introducing mixed point cloud inputs to further refine 3D feature representations. MM-Mixing enhances intermodality relationships, promotes generalization, and ensures feature consistency while providing diverse and realistic training samples. We demonstrate that MM-Mixing significantly improves baseline performance across various learning scenarios, including zero-shot 3D classification, linear probing 3D classification, and cross-modal 3D shape retrieval. Notably, we improved the zero-shot classification accuracy on ScanObjectNN from 51.3% to 61.9%, and on Objaverse-LVIS from 46.8% to 51.4%. Our findings highlight the potential of multi-modal mixing-based alignment to significantly advance 3D object recognition and understanding while remaining straightforward to implement and integrate into existing frameworks.
- Abstract(参考訳): MM-Mixingは3次元理解のためのマルチモーダルミキシングアライメントフレームワークである。
MM-Mixingは、マルチモーダルデータに混合法を適用し、多様性を高め、モダリティ間のアライメントを改善するとともに、クロスモーダル接続の保存と最適化を行う。
提案する2段階学習パイプラインは,特徴レベルと入力レベルを混合して3Dエンコーダを最適化する。
第1段階では、3D特徴を対応するモダリティと整合させるために、特徴レベルの混合と対照的な学習が採用されている。
第2段階では、特徴レベルと入力レベルを混合し、混合点クラウド入力を導入し、3D特徴表現をさらに洗練する。
MM-Mixingはモダリティ間の関係を強化し、一般化を促進し、多様な現実的なトレーニングサンプルを提供しながら特徴の一貫性を確保する。
MM-Mixingは, ゼロショット3次元分類, 線形探索3次元分類, クロスモーダル3次元形状検索など, 様々な学習シナリオにおけるベースライン性能を著しく向上させることを示した。
ScanObjectNNのゼロショット分類精度は51.3%から61.9%,Objaverse-LVISは46.8%から51.4%に向上した。
本研究は,3次元オブジェクト認識と理解を著しく向上させるマルチモーダルミキシングベースのアライメントの可能性を明らかにするとともに,既存のフレームワークの実装と統合を簡易に行うことを目的としている。
関連論文リスト
- Adaptive Mix for Semi-Supervised Medical Image Segmentation [22.69909762038458]
本稿では,画像混合のための適応混合アルゴリズム(AdaMix)を提案する。
AdaMix-ST, AdaMix-MT, AdaMix-CTの3つのフレームワークを半教師付き医用画像分割用として開発した。
論文 参考訳(メタデータ) (2024-07-31T13:19:39Z) - Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - Multiway Point Cloud Mosaicking with Diffusion and Global Optimization [74.3802812773891]
マルチウェイポイントクラウドモザイクのための新しいフレームワーク(水曜日)を紹介する。
我々のアプローチの核心は、重複を識別し、注意点を洗練する学習されたペアワイズ登録アルゴリズムODINである。
4つの多種多様な大規模データセットを用いて、我々の手法は、全てのベンチマークにおいて大きなマージンで、最先端のペアとローテーションの登録結果を比較した。
論文 参考訳(メタデータ) (2024-03-30T17:29:13Z) - PowMix: A Versatile Regularizer for Multimodal Sentiment Analysis [71.8946280170493]
本稿では,単相混合型正規化手法の強みを生かした汎用な埋め込み空間正規化器であるPowMixを紹介する。
PowMixはマルチモーダルアーキテクチャの融合段階の前に統合され、テキストとテキストを混合するなどのモダル内混合を容易にし、レギュレータとして機能する。
論文 参考訳(メタデータ) (2023-12-19T17:01:58Z) - Connecting Multi-modal Contrastive Representations [50.26161419616139]
マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に共有された空間に符号化することを目的としている。
本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習するための,新たな学習効率向上手法を提案する。
C-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のオーディオ映像のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-22T09:44:39Z) - MixupE: Understanding and Improving Mixup from Directional Derivative
Perspective [86.06981860668424]
理論上は、バニラ・ミックスアップよりも優れた一般化性能を実現するために、Mixupの改良版を提案する。
提案手法は,様々なアーキテクチャを用いて,複数のデータセットにまたがるMixupを改善した。
論文 参考訳(メタデータ) (2022-12-27T07:03:52Z) - SageMix: Saliency-Guided Mixup for Point Clouds [14.94694648742664]
SageMixは、局所的な局所構造を保存するために、点雲のための塩分誘導ミキサである。
PointNet++では、3D Warehouse データセット (MN40) と ScanObjectNN の標準トレーニングよりも精度が 2.6% と 4.0% 向上した。
論文 参考訳(メタデータ) (2022-10-13T12:19:58Z) - Pose Adaptive Dual Mixup for Few-Shot Single-View 3D Reconstruction [35.30827580375749]
単像3D再構成のためのポーズ適応型数ショット学習法と2段階データ正規化法を提案する。
PADMixは、ShapeNetデータセットよりも数ショット設定で過去の文献を著しく上回り、より困難な現実世界のPix3Dデータセットで新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2021-12-23T12:22:08Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。