論文の概要: Connecting Multi-modal Contrastive Representations
- arxiv url: http://arxiv.org/abs/2305.14381v2
- Date: Thu, 19 Oct 2023 02:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 20:10:02.230697
- Title: Connecting Multi-modal Contrastive Representations
- Title(参考訳): マルチモーダルコントラスト表現の接続
- Authors: Zehan Wang, Yang Zhao, Xize Cheng, Haifeng Huang, Jiageng Liu, Li
Tang, Linjun Li, Yongqi Wang, Aoxiong Yin, Ziang Zhang, Zhou Zhao
- Abstract要約: マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に共有された空間に符号化することを目的としている。
本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習するための,新たな学習効率向上手法を提案する。
C-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のオーディオ映像のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 50.26161419616139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal Contrastive Representation learning aims to encode different
modalities into a semantically aligned shared space. This paradigm shows
remarkable generalization ability on numerous downstream tasks across various
modalities. However, the reliance on massive high-quality data pairs limits its
further development on more modalities. This paper proposes a novel
training-efficient method for learning MCR without paired data called
Connecting Multi-modal Contrastive Representations (C-MCR). Specifically, given
two existing MCRs pre-trained on (A, B) and (B, C) modality pairs, we project
them to a new space and use the data from the overlapping modality B to
aligning the two MCRs in the new space. Meanwhile, since the modality pairs (A,
B) and (B, C) are already aligned within each MCR, the connection learned by
overlapping modality can also be transferred to non-overlapping modality pair
(A, C). To unleash the potential of C-MCR, we further introduce a
semantic-enhanced inter- and intra-MCR connection method. We first enhance the
semantic consistency and completion of embeddings across different modalities
for more robust alignment. Then we utilize the inter-MCR alignment to establish
the connection, and employ the intra-MCR alignment to better maintain the
connection for inputs from non-overlapping modalities. To demonstrate the
effectiveness of C-MCR, we connect CLIP and CLAP via texts to derive
audio-visual representations, and integrate CLIP and ULIP via images for
3D-language representations. Remarkably, without using any paired data, C-MCR
for audio-visual achieves state-of-the-art performance on audio-image
retrieval, audio-visual source localization, and counterfactual audio-image
recognition tasks. Furthermore, C-MCR for 3D-language also attains advanced
zero-shot 3D point cloud classification accuracy on ModelNet40.
- Abstract(参考訳): マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に整合した共有空間に符号化することを目的としている。
このパラダイムは、様々なモードにわたる多くの下流タスクにおいて顕著な一般化能力を示す。
しかし、大量の高品質のデータペアへの依存は、さらなるモダリティへのさらなる発展を制限する。
本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習する新しい学習方法を提案する。
具体的には、 (A, B) と (B, C) のモダリティ対上で事前訓練された2つの既存の MCR について、それらを新しい空間に投影し、重なり合うモダリティ B からのデータを新しい空間に整列させる。
一方、モダリティ対 (A, B) と (B, C) は既に各 MCR 内に整列しているので、重なり合うモダリティ対 (A, C) に重なり合うことで得られる接続も、非重なり合うモダリティ対 (A, C) に移すことができる。
C-MCRのポテンシャルを解き放つために, セマンティック・エンハンスド・インター・イントラMCR接続法を導入する。
まず、より堅牢なアライメントのために、異なるモダリティにまたがる埋め込みのセマンティック一貫性と完成性を強化する。
次に、MCR間アライメントを用いて接続を確立し、MCR内アライメントを用いて、重複しないモダリティからの入力に対する接続をより良く維持する。
C-MCRの有効性を示すために、テキストを介してCLIPとCLAPを接続し、CLIPとULIPを3次元言語表現のための画像を介して統合する。
注目すべきは、ペアデータを使用しないC-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のパフォーマンスを達成することである。
さらに、3D言語用のC-MCRは、ModelNet40上での高度なゼロショット3Dポイントクラウド分類の精度も達成している。
関連論文リスト
- Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - Multimodal Cross-Document Event Coreference Resolution Using Linear Semantic Transfer and Mixed-Modality Ensembles [8.233126457964834]
イベントコア参照解決(英: Event coreference resolution、ECR)とは、イベントの別個の参照が、実際に同じ基礎となる発生にリンクされているかどうかを決定するタスクである。
本稿では,視覚モデルと言語モデル間の単純な線形写像と,視覚的およびテキスト的手がかりを統合したマルチモーダル・クロスドキュメント・イベント・コア参照分解法を提案する。
本研究は,ECRにおけるマルチモーダル情報の有用性を示すものである。
論文 参考訳(メタデータ) (2024-04-13T10:01:58Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Extending Multi-modal Contrastive Representations [53.923340739349314]
3つ以上のモダリティのマルチモーダルコントラスト表現(MCR)は、マルチモーダル学習において重要である。
最近のC-MCRにインスパイアされた本論文では,拡張マルチモーダルコントラスト表現(Ex-MCR)を提案する。
元MCRは3つ以上のモダリティのコントラスト表現空間を柔軟に学習する訓練効率とペアデータフリーの手法である。
論文 参考訳(メタデータ) (2023-10-13T06:34:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文 参考訳(メタデータ) (2023-03-23T15:42:05Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。