Fugu-MT 論文翻訳(概要): Connecting Multi-modal Contrastive Representations

論文の概要: Connecting Multi-modal Contrastive Representations

arxiv url: http://arxiv.org/abs/2305.14381v2
Date: Thu, 19 Oct 2023 02:55:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 20:10:02.230697
Title: Connecting Multi-modal Contrastive Representations
Title（参考訳）: マルチモーダルコントラスト表現の接続
Authors: Zehan Wang, Yang Zhao, Xize Cheng, Haifeng Huang, Jiageng Liu, Li Tang, Linjun Li, Yongqi Wang, Aoxiong Yin, Ziang Zhang, Zhou Zhao
Abstract要約: マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に共有された空間に符号化することを目的としている。本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習するための,新たな学習効率向上手法を提案する。 C-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のオーディオ映像のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 50.26161419616139
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-modal Contrastive Representation learning aims to encode different modalities into a semantically aligned shared space. This paradigm shows remarkable generalization ability on numerous downstream tasks across various modalities. However, the reliance on massive high-quality data pairs limits its further development on more modalities. This paper proposes a novel training-efficient method for learning MCR without paired data called Connecting Multi-modal Contrastive Representations (C-MCR). Specifically, given two existing MCRs pre-trained on (A, B) and (B, C) modality pairs, we project them to a new space and use the data from the overlapping modality B to aligning the two MCRs in the new space. Meanwhile, since the modality pairs (A, B) and (B, C) are already aligned within each MCR, the connection learned by overlapping modality can also be transferred to non-overlapping modality pair (A, C). To unleash the potential of C-MCR, we further introduce a semantic-enhanced inter- and intra-MCR connection method. We first enhance the semantic consistency and completion of embeddings across different modalities for more robust alignment. Then we utilize the inter-MCR alignment to establish the connection, and employ the intra-MCR alignment to better maintain the connection for inputs from non-overlapping modalities. To demonstrate the effectiveness of C-MCR, we connect CLIP and CLAP via texts to derive audio-visual representations, and integrate CLIP and ULIP via images for 3D-language representations. Remarkably, without using any paired data, C-MCR for audio-visual achieves state-of-the-art performance on audio-image retrieval, audio-visual source localization, and counterfactual audio-image recognition tasks. Furthermore, C-MCR for 3D-language also attains advanced zero-shot 3D point cloud classification accuracy on ModelNet40.
Abstract（参考訳）: マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に整合した共有空間に符号化することを目的としている。このパラダイムは、様々なモードにわたる多くの下流タスクにおいて顕著な一般化能力を示す。しかし、大量の高品質のデータペアへの依存は、さらなるモダリティへのさらなる発展を制限する。本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習する新しい学習方法を提案する。具体的には、 (A, B) と (B, C) のモダリティ対上で事前訓練された2つの既存の MCR について、それらを新しい空間に投影し、重なり合うモダリティ B からのデータを新しい空間に整列させる。一方、モダリティ対 (A, B) と (B, C) は既に各 MCR 内に整列しているので、重なり合うモダリティ対 (A, C) に重なり合うことで得られる接続も、非重なり合うモダリティ対 (A, C) に移すことができる。 C-MCRのポテンシャルを解き放つために, セマンティック・エンハンスド・インター・イントラMCR接続法を導入する。まず、より堅牢なアライメントのために、異なるモダリティにまたがる埋め込みのセマンティック一貫性と完成性を強化する。次に、MCR間アライメントを用いて接続を確立し、MCR内アライメントを用いて、重複しないモダリティからの入力に対する接続をより良く維持する。 C-MCRの有効性を示すために、テキストを介してCLIPとCLAPを接続し、CLIPとULIPを3次元言語表現のための画像を介して統合する。注目すべきは、ペアデータを使用しないC-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のパフォーマンスを達成することである。さらに、3D言語用のC-MCRは、ModelNet40上での高度なゼロショット3Dポイントクラウド分類の精度も達成している。

関連論文リスト

RL-U$^2$Net: A Dual-Branch UNet with Reinforcement Learning-Assisted Multimodal Feature Fusion for Accurate 3D Whole-Heart Segmentation [0.624829068285122]
機能アライメントのための強化学習により強化されたデュアルブランチU-Netアーキテクチャを提案する。このモデルは、デュアルブランチU字型ネットワークを用いて、CTとMRIのパッチを並列に処理し、新しいRL-XAlignモジュールを導入する。公開されているMM-WHS 2017データセットの実験結果は、提案されたRL-U$2$Netが既存の最先端メソッドより優れていることを示している。
論文参考訳（メタデータ） (2025-08-04T16:12:06Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。 MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文参考訳（メタデータ） (2024-07-19T03:43:48Z)
Multimodal Cross-Document Event Coreference Resolution Using Linear Semantic Transfer and Mixed-Modality Ensembles [8.233126457964834]
イベントコア参照解決(英: Event coreference resolution、ECR)とは、イベントの別個の参照が、実際に同じ基礎となる発生にリンクされているかどうかを決定するタスクである。本稿では,視覚モデルと言語モデル間の単純な線形写像と,視覚的およびテキスト的手がかりを統合したマルチモーダル・クロスドキュメント・イベント・コア参照分解法を提案する。本研究は,ECRにおけるマルチモーダル情報の有用性を示すものである。
論文参考訳（メタデータ） (2024-04-13T10:01:58Z)
Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。 AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。 AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2024-03-12T11:48:49Z)
Extending Multi-modal Contrastive Representations [53.923340739349314]
3つ以上のモダリティのマルチモーダルコントラスト表現(MCR)は、マルチモーダル学習において重要である。最近のC-MCRにインスパイアされた本論文では,拡張マルチモーダルコントラスト表現(Ex-MCR)を提案する。元MCRは3つ以上のモダリティのコントラスト表現空間を柔軟に学習する訓練効率とペアデータフリーの手法である。
論文参考訳（メタデータ） (2023-10-13T06:34:23Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。 MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文参考訳（メタデータ） (2023-03-23T15:42:05Z)
LMR-CBT: Learning Modality-fused Representations with CB-Transformer for Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。 3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文参考訳（メタデータ） (2021-12-03T03:43:18Z)
Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文参考訳（メタデータ） (2020-08-21T10:45:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。