Fugu-MT 論文翻訳(概要): Extending Multi-modal Contrastive Representations

論文の概要: Extending Multi-modal Contrastive Representations

arxiv url: http://arxiv.org/abs/2310.08884v1
Date: Fri, 13 Oct 2023 06:34:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-16 14:11:23.547562
Title: Extending Multi-modal Contrastive Representations
Title（参考訳）: マルチモーダルコントラスト表現の拡張
Authors: Zehan Wang, Ziang Zhang, Luping Liu, Yang Zhao, Haifeng Huang, Tao Jin, Zhou Zhao
Abstract要約: 3つ以上のモダリティのマルチモーダルコントラスト表現(MCR)は、マルチモーダル学習において重要である。最近のC-MCRにインスパイアされた本論文では,拡張マルチモーダルコントラスト表現(Ex-MCR)を提案する。元MCRは3つ以上のモダリティのコントラスト表現空間を柔軟に学習する訓練効率とペアデータフリーの手法である。
参考スコア（独自算出の注目度）: 53.923340739349314
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-modal contrastive representation (MCR) of more than three modalities is critical in multi-modal learning. Although recent methods showcase impressive achievements, the high dependence on large-scale, high-quality paired data and the expensive training costs limit their further development. Inspired by recent C-MCR, this paper proposes Extending Multimodal Contrastive Representation (Ex-MCR), a training-efficient and paired-data-free method to flexibly learn unified contrastive representation space for more than three modalities by integrating the knowledge of existing MCR spaces. Specifically, Ex-MCR aligns multiple existing MCRs into the same based MCR, which can effectively preserve the original semantic alignment of the based MCR. Besides, we comprehensively enhance the entire learning pipeline for aligning MCR spaces from the perspectives of training data, architecture, and learning objectives. With the preserved original modality alignment and the enhanced space alignment, Ex-MCR shows superior representation learning performance and excellent modality extensibility. To demonstrate the effectiveness of Ex-MCR, we align the MCR spaces of CLAP (audio-text) and ULIP (3D-vision) into the CLIP (vision-text), leveraging the overlapping text and image modality, respectively. Remarkably, without using any paired data, Ex-MCR learns a 3D-image-text-audio unified contrastive representation, and it achieves state-of-the-art performance on audio-visual, 3D-image, audio-text, visual-text retrieval, and 3D object classification tasks. More importantly, extensive qualitative results further demonstrate the emergent semantic alignment between the extended modalities (e.g., audio and 3D), which highlights the great potential of modality extensibility.
Abstract（参考訳）: 3つのモードからなるマルチモーダルコントラスト表現(MCR)は、マルチモーダル学習において重要である。近年の手法は目覚ましい成果を示しているが、大規模で高品質なペアデータへの高い依存と、高価なトレーニングコストは、さらなる開発を制限している。最近のC-MCRにインスパイアされた本研究では,既存のMCR空間の知識を統合することで,3つのモダリティ以上のコントラスト表現空間を柔軟に学習する訓練効率とペアデータフリーの手法である拡張マルチモーダルコントラスト表現(Ex-MCR)を提案する。具体的には、Ex-MCRは複数の既存のMCRを同一のMCRに整列させ、ベースMCRの本来の意味的アライメントを効果的に維持する。さらに,mcr空間をトレーニングデータ,アーキテクチャ,学習目標の観点から整列するための学習パイプライン全体を包括的に拡張した。保存された元のモダリティアライメントと拡張された空間アライメントにより、Ex-MCRは優れた表現学習性能と優れたモダリティ拡張性を示す。 CLAP(audio-text)とULIP(3D-vision)のMCR空間をCLIP(vision-text)にアライメントし,重なり合うテキストと画像のモダリティを利用する。注目すべきことに、Ex-MCRはペアデータを使用しずに、3D画像と音声を融合したコントラスト表現を学び、3D画像、オーディオテキスト、ビジュアルテキスト検索、および3Dオブジェクト分類タスクで最先端のパフォーマンスを達成する。さらに重要なことは、拡張されたモーダル(例えば、オーディオと3D)間の創発的な意味的アライメントが、モダリティ拡張の大きな可能性を示していることである。

関連論文リスト

Enhanced Cross-modal 3D Retrieval via Tri-modal Reconstruction [4.820576346277399]
クロスモーダルな3D検索は重要な課題であり、3Dとテキストのモダリティ間の双方向検索の実現を目指している。マルチビュー画像と点雲を併用して3次元形状を共同で表現し,3次元アライメントを容易にすることを提案する。本手法は, テキスト検索とテキスト検索の両方において, 従来の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2025-04-02T08:29:42Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes [55.33167217384738]
LiMoEは、Mixture of Experts(MoE)パラダイムをLiDARデータ表現学習に統合するフレームワークである。我々のアプローチは3つの段階からなる: Image-to-LiDAR Pretraining, Contrastive Mixture Learning (CML), Semantic Mixture Supervision (SMS)。
論文参考訳（メタデータ） (2025-01-07T18:59:58Z)
Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文参考訳（メタデータ） (2024-12-12T06:09:49Z)
Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。 MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文参考訳（メタデータ） (2024-07-19T03:43:48Z)
Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。 DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文参考訳（メタデータ） (2024-07-13T05:39:17Z)
Learning to Rank Onset-Occurring-Offset Representations for Micro-Expression Recognition [24.75382410411772]
本稿では,マイクロ圧縮認識(MER)の研究に焦点をあてる。オンセットオフセット表現(LTR3O)をランク付けする学習法という,柔軟で信頼性の高い深層学習手法を提案する。
論文参考訳（メタデータ） (2023-10-07T03:09:53Z)
Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文参考訳（メタデータ） (2023-07-16T13:41:39Z)
Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2023-07-07T12:00:38Z)
Connecting Multi-modal Contrastive Representations [50.26161419616139]
マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に共有された空間に符号化することを目的としている。本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習するための,新たな学習効率向上手法を提案する。 C-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のオーディオ映像のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-05-22T09:44:39Z)
Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。 IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文参考訳（メタデータ） (2023-03-28T12:42:12Z)
SelfCoLearn: Self-supervised collaborative learning for accelerating dynamic MR imaging [15.575332712603172]
本稿では, アンダーサンプされたk空間データから, 動的MR画像の正確な再構成を行うための自己教師付き協調学習フレームワーク(SelfCoLearn)を提案する。提案フレームワークは,2つのネットワーク協調学習,データ拡張のアンサンプ化,特別に設計された協調学習損失という,3つの重要なコンポーネントを備える。その結果,本手法は,アンダーサンプされたk空間データから,本質的,本質的表現を抽出する能力を持つことがわかった。
論文参考訳（メタデータ） (2022-08-08T04:01:26Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。