論文の概要: Extending Multi-modal Contrastive Representations
- arxiv url: http://arxiv.org/abs/2310.08884v1
- Date: Fri, 13 Oct 2023 06:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 14:11:23.547562
- Title: Extending Multi-modal Contrastive Representations
- Title(参考訳): マルチモーダルコントラスト表現の拡張
- Authors: Zehan Wang, Ziang Zhang, Luping Liu, Yang Zhao, Haifeng Huang, Tao
Jin, Zhou Zhao
- Abstract要約: 3つ以上のモダリティのマルチモーダルコントラスト表現(MCR)は、マルチモーダル学習において重要である。
最近のC-MCRにインスパイアされた本論文では,拡張マルチモーダルコントラスト表現(Ex-MCR)を提案する。
元MCRは3つ以上のモダリティのコントラスト表現空間を柔軟に学習する訓練効率とペアデータフリーの手法である。
- 参考スコア(独自算出の注目度): 53.923340739349314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal contrastive representation (MCR) of more than three modalities is
critical in multi-modal learning. Although recent methods showcase impressive
achievements, the high dependence on large-scale, high-quality paired data and
the expensive training costs limit their further development. Inspired by
recent C-MCR, this paper proposes Extending Multimodal Contrastive
Representation (Ex-MCR), a training-efficient and paired-data-free method to
flexibly learn unified contrastive representation space for more than three
modalities by integrating the knowledge of existing MCR spaces. Specifically,
Ex-MCR aligns multiple existing MCRs into the same based MCR, which can
effectively preserve the original semantic alignment of the based MCR. Besides,
we comprehensively enhance the entire learning pipeline for aligning MCR spaces
from the perspectives of training data, architecture, and learning objectives.
With the preserved original modality alignment and the enhanced space
alignment, Ex-MCR shows superior representation learning performance and
excellent modality extensibility. To demonstrate the effectiveness of Ex-MCR,
we align the MCR spaces of CLAP (audio-text) and ULIP (3D-vision) into the CLIP
(vision-text), leveraging the overlapping text and image modality,
respectively. Remarkably, without using any paired data, Ex-MCR learns a
3D-image-text-audio unified contrastive representation, and it achieves
state-of-the-art performance on audio-visual, 3D-image, audio-text, visual-text
retrieval, and 3D object classification tasks. More importantly, extensive
qualitative results further demonstrate the emergent semantic alignment between
the extended modalities (e.g., audio and 3D), which highlights the great
potential of modality extensibility.
- Abstract(参考訳): 3つのモードからなるマルチモーダルコントラスト表現(MCR)は、マルチモーダル学習において重要である。
近年の手法は目覚ましい成果を示しているが、大規模で高品質なペアデータへの高い依存と、高価なトレーニングコストは、さらなる開発を制限している。
最近のC-MCRにインスパイアされた本研究では,既存のMCR空間の知識を統合することで,3つのモダリティ以上のコントラスト表現空間を柔軟に学習する訓練効率とペアデータフリーの手法である拡張マルチモーダルコントラスト表現(Ex-MCR)を提案する。
具体的には、Ex-MCRは複数の既存のMCRを同一のMCRに整列させ、ベースMCRの本来の意味的アライメントを効果的に維持する。
さらに,mcr空間をトレーニングデータ,アーキテクチャ,学習目標の観点から整列するための学習パイプライン全体を包括的に拡張した。
保存された元のモダリティアライメントと拡張された空間アライメントにより、Ex-MCRは優れた表現学習性能と優れたモダリティ拡張性を示す。
CLAP(audio-text)とULIP(3D-vision)のMCR空間をCLIP(vision-text)にアライメントし,重なり合うテキストと画像のモダリティを利用する。
注目すべきことに、Ex-MCRはペアデータを使用しずに、3D画像と音声を融合したコントラスト表現を学び、3D画像、オーディオテキスト、ビジュアルテキスト検索、および3Dオブジェクト分類タスクで最先端のパフォーマンスを達成する。
さらに重要なことは、拡張されたモーダル(例えば、オーディオと3D)間の創発的な意味的アライメントが、モダリティ拡張の大きな可能性を示していることである。
関連論文リスト
- LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes [55.33167217384738]
LiMoEは、Mixture of Experts(MoE)パラダイムをLiDARデータ表現学習に統合するフレームワークである。
我々のアプローチは3つの段階からなる: Image-to-LiDAR Pretraining, Contrastive Mixture Learning (CML), Semantic Mixture Supervision (SMS)。
論文 参考訳(メタデータ) (2025-01-07T18:59:58Z) - Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。
既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。
本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文 参考訳(メタデータ) (2024-12-12T06:09:49Z) - Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。
DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-13T05:39:17Z) - Multi-View Large Reconstruction Model via Geometry-Aware Positional Encoding and Attention [54.66152436050373]
本稿では,M-LRM(Multi-view Large Restruction Model)を提案する。
具体的には、M-LRMが入力画像から情報を正確にクエリできるマルチビュー整合型クロスアテンション方式を提案する。
従来の手法と比較して,提案手法は高忠実度の3次元形状を生成することができる。
論文 参考訳(メタデータ) (2024-06-11T18:29:13Z) - Learning to Rank Onset-Occurring-Offset Representations for
Micro-Expression Recognition [24.75382410411772]
本稿では,マイクロ圧縮認識(MER)の研究に焦点をあてる。
オンセットオフセット表現(LTR3O)をランク付けする学習法という,柔軟で信頼性の高い深層学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-07T03:09:53Z) - Connecting Multi-modal Contrastive Representations [50.26161419616139]
マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に共有された空間に符号化することを目的としている。
本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習するための,新たな学習効率向上手法を提案する。
C-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のオーディオ映像のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-22T09:44:39Z) - SelfCoLearn: Self-supervised collaborative learning for accelerating
dynamic MR imaging [15.575332712603172]
本稿では, アンダーサンプされたk空間データから, 動的MR画像の正確な再構成を行うための自己教師付き協調学習フレームワーク(SelfCoLearn)を提案する。
提案フレームワークは,2つのネットワーク協調学習,データ拡張のアンサンプ化,特別に設計された協調学習損失という,3つの重要なコンポーネントを備える。
その結果,本手法は,アンダーサンプされたk空間データから,本質的,本質的表現を抽出する能力を持つことがわかった。
論文 参考訳(メタデータ) (2022-08-08T04:01:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。