論文の概要: Extending Multi-modal Contrastive Representations
- arxiv url: http://arxiv.org/abs/2310.08884v1
- Date: Fri, 13 Oct 2023 06:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 14:11:23.547562
- Title: Extending Multi-modal Contrastive Representations
- Title(参考訳): マルチモーダルコントラスト表現の拡張
- Authors: Zehan Wang, Ziang Zhang, Luping Liu, Yang Zhao, Haifeng Huang, Tao
Jin, Zhou Zhao
- Abstract要約: 3つ以上のモダリティのマルチモーダルコントラスト表現(MCR)は、マルチモーダル学習において重要である。
最近のC-MCRにインスパイアされた本論文では,拡張マルチモーダルコントラスト表現(Ex-MCR)を提案する。
元MCRは3つ以上のモダリティのコントラスト表現空間を柔軟に学習する訓練効率とペアデータフリーの手法である。
- 参考スコア(独自算出の注目度): 53.923340739349314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal contrastive representation (MCR) of more than three modalities is
critical in multi-modal learning. Although recent methods showcase impressive
achievements, the high dependence on large-scale, high-quality paired data and
the expensive training costs limit their further development. Inspired by
recent C-MCR, this paper proposes Extending Multimodal Contrastive
Representation (Ex-MCR), a training-efficient and paired-data-free method to
flexibly learn unified contrastive representation space for more than three
modalities by integrating the knowledge of existing MCR spaces. Specifically,
Ex-MCR aligns multiple existing MCRs into the same based MCR, which can
effectively preserve the original semantic alignment of the based MCR. Besides,
we comprehensively enhance the entire learning pipeline for aligning MCR spaces
from the perspectives of training data, architecture, and learning objectives.
With the preserved original modality alignment and the enhanced space
alignment, Ex-MCR shows superior representation learning performance and
excellent modality extensibility. To demonstrate the effectiveness of Ex-MCR,
we align the MCR spaces of CLAP (audio-text) and ULIP (3D-vision) into the CLIP
(vision-text), leveraging the overlapping text and image modality,
respectively. Remarkably, without using any paired data, Ex-MCR learns a
3D-image-text-audio unified contrastive representation, and it achieves
state-of-the-art performance on audio-visual, 3D-image, audio-text, visual-text
retrieval, and 3D object classification tasks. More importantly, extensive
qualitative results further demonstrate the emergent semantic alignment between
the extended modalities (e.g., audio and 3D), which highlights the great
potential of modality extensibility.
- Abstract(参考訳): 3つのモードからなるマルチモーダルコントラスト表現(MCR)は、マルチモーダル学習において重要である。
近年の手法は目覚ましい成果を示しているが、大規模で高品質なペアデータへの高い依存と、高価なトレーニングコストは、さらなる開発を制限している。
最近のC-MCRにインスパイアされた本研究では,既存のMCR空間の知識を統合することで,3つのモダリティ以上のコントラスト表現空間を柔軟に学習する訓練効率とペアデータフリーの手法である拡張マルチモーダルコントラスト表現(Ex-MCR)を提案する。
具体的には、Ex-MCRは複数の既存のMCRを同一のMCRに整列させ、ベースMCRの本来の意味的アライメントを効果的に維持する。
さらに,mcr空間をトレーニングデータ,アーキテクチャ,学習目標の観点から整列するための学習パイプライン全体を包括的に拡張した。
保存された元のモダリティアライメントと拡張された空間アライメントにより、Ex-MCRは優れた表現学習性能と優れたモダリティ拡張性を示す。
CLAP(audio-text)とULIP(3D-vision)のMCR空間をCLIP(vision-text)にアライメントし,重なり合うテキストと画像のモダリティを利用する。
注目すべきことに、Ex-MCRはペアデータを使用しずに、3D画像と音声を融合したコントラスト表現を学び、3D画像、オーディオテキスト、ビジュアルテキスト検索、および3Dオブジェクト分類タスクで最先端のパフォーマンスを達成する。
さらに重要なことは、拡張されたモーダル(例えば、オーディオと3D)間の創発的な意味的アライメントが、モダリティ拡張の大きな可能性を示していることである。
関連論文リスト
- Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。
DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-13T05:39:17Z) - Learning to Rank Onset-Occurring-Offset Representations for
Micro-Expression Recognition [24.75382410411772]
本稿では,マイクロ圧縮認識(MER)の研究に焦点をあてる。
オンセットオフセット表現(LTR3O)をランク付けする学習法という,柔軟で信頼性の高い深層学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-07T03:09:53Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Connecting Multi-modal Contrastive Representations [50.26161419616139]
マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に共有された空間に符号化することを目的としている。
本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習するための,新たな学習効率向上手法を提案する。
C-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のオーディオ映像のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-22T09:44:39Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z) - SelfCoLearn: Self-supervised collaborative learning for accelerating
dynamic MR imaging [15.575332712603172]
本稿では, アンダーサンプされたk空間データから, 動的MR画像の正確な再構成を行うための自己教師付き協調学習フレームワーク(SelfCoLearn)を提案する。
提案フレームワークは,2つのネットワーク協調学習,データ拡張のアンサンプ化,特別に設計された協調学習損失という,3つの重要なコンポーネントを備える。
その結果,本手法は,アンダーサンプされたk空間データから,本質的,本質的表現を抽出する能力を持つことがわかった。
論文 参考訳(メタデータ) (2022-08-08T04:01:26Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。