論文の概要: MXM-CLR: A Unified Framework for Contrastive Learning of Multifold
Cross-Modal Representations
- arxiv url: http://arxiv.org/abs/2303.10839v2
- Date: Tue, 21 Mar 2023 02:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 11:11:26.669302
- Title: MXM-CLR: A Unified Framework for Contrastive Learning of Multifold
Cross-Modal Representations
- Title(参考訳): MXM-CLR:マルチフォールド・クロスモーダル表現のコントラスト学習のための統一フレームワーク
- Authors: Ye Wang, Bowei Jiang, Changqing Zou, Rui Ma
- Abstract要約: マルチフォールド・クロスモーダル表現のコントラスト学習のための統合フレームワークMXM-CLRを提案する。
XM-CLRは、異なるモードからインスタンスの多重折りたたみ観測の関係を明示的にモデル化し、学習する。
その結果,マルチフォールドデータの表現性を向上させる上で,MXM-CLRの優位性が示された。
- 参考スコア(独自算出の注目度): 14.355743915598554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multifold observations are common for different data modalities, e.g., a 3D
shape can be represented by multi-view images and an image can be described
with different captions. Existing cross-modal contrastive representation
learning (XM-CLR) methods such as CLIP are not fully suitable for multifold
data as they only consider one positive pair and treat other pairs as negative
when computing the contrastive loss. In this paper, we propose MXM-CLR, a
unified framework for contrastive learning of multifold cross-modal
representations. MXM-CLR explicitly models and learns the relationships between
multifold observations of instances from different modalities for more
comprehensive representation learning. The key of MXM-CLR is a novel
multifold-aware hybrid loss which considers multiple positive observations when
computing the hard and soft relationships for the cross-modal data pairs. We
conduct quantitative and qualitative comparisons with SOTA baselines for
cross-modal retrieval tasks on the Text2Shape and Flickr30K datasets. We also
perform extensive evaluations on the adaptability and generalizability of
MXM-CLR, as well as ablation studies on the loss design and effects of batch
sizes. The results show the superiority of MXM-CLR in learning better
representations for the multifold data. The code is available at
https://github.com/JLU-ICL/MXM-CLR.
- Abstract(参考訳): 例えば、3次元の形状は多視点画像で表現でき、画像は異なるキャプションで記述できる。
CLIPのような既存のクロスモーダル・コントラスト表現学習(XM-CLR)法は、1つの正のペアのみを考慮し、他のペアを負のペアとして扱うため、マルチフォールドデータに完全には適していない。
本稿では,マルチフォールド・クロスモーダル表現のコントラスト学習のための統合フレームワークMXM-CLRを提案する。
MXM-CLRは、より包括的な表現学習のために、異なるモダリティからインスタンスの多重度観測の関係を明示的にモデル化し、学習する。
MXM-CLRの鍵は、クロスモーダルデータペアのハードとソフトの関係を計算する際に、複数のポジティブな観測を考慮に入れた、新しいマルチフォールド対応ハイブリッド損失である。
我々は,Text2Shape と Flickr30K データセットの相互モーダル検索タスクに対して,SOTA ベースラインと定量的,質的な比較を行う。
また,MXM-CLRの適応性と一般化性,およびバッチサイズによる損失設計と効果に関するアブレーション研究も行った。
その結果,マルチフォールドデータの表現性向上にMXM-CLRが優れていることが示された。
コードはhttps://github.com/JLU-ICL/MXM-CLRで公開されている。
関連論文リスト
- MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [105.36623165770936]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large
Language Models [97.95061863448996]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly
Supervised Text-based Person Re-Identification [10.64115914599574]
弱教師付きテキストベース人物識別(TPRe-ID)は、テキスト記述を用いて対象人物の画像の検索を試みる。
主な課題はクラス内の違いであり、モーダル内特徴のバリエーションとモーダル間のセマンティックギャップを含んでいる。
実際には、CPCLはCLIPモデルを初めて弱教師付きTPRe-IDに導入し、ビジュアルインスタンスとテキストインスタンスを共有潜在空間にマッピングする。
論文 参考訳(メタデータ) (2024-01-18T14:27:01Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing
Image Segmentation [66.31941110777734]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - On the Generalization of Multi-modal Contrastive Learning [21.849681446573257]
MMCLがマルチモーダルペアから有用な視覚表現を抽出する方法について検討する。
テキストペアは、より意味論的に一貫性があり、多様な正のペアを誘導することを示す。
この発見に触発されて,イメージネット上でのSSCLのダウンストリーム性能を大幅に向上させるCLIP誘導再サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T09:13:56Z) - Understanding Multimodal Contrastive Learning and Incorporating Unpaired
Data [19.72282903349282]
マルチモーダル・コントラッシブ・ラーニング(MMCL)における非線形損失関数の一般クラスを示す。
MMCLの特徴学習能力は,各モダリティに適用される一助的コントラスト学習能力よりも優れていることを示す。
追加の未ペアデータにアクセスできる場合、追加の未ペアデータを含む新たなMMCL損失を提案する。
論文 参考訳(メタデータ) (2023-02-13T10:11:05Z) - Multi-view Multi-behavior Contrastive Learning in Recommendation [52.42597422620091]
マルチビヘイビアレコメンデーション(MBR)は、目標行動のパフォーマンスを改善するために、複数の振る舞いを共同で検討することを目的としている。
本稿では,新しいマルチビヘイビア・マルチビュー・コントラスト学習勧告フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-20T15:13:28Z) - Hierarchical Cross-Modality Semantic Correlation Learning Model for
Multimodal Summarization [4.714335699701277]
マルチモーダル出力(MSMO)によるマルチモーダル要約は、テキストコンテンツとビジュアルコンテンツの両方で要約を生成する。
従来のMSMOメソッドは、データ全体の表現を学習することで、異なるデータモダリティを区別できない方法で処理する。
マルチモーダルデータに存在するモーダル内およびモーダル間相関を学習するための階層的相互モーダル意味相関学習モデル(HCSCL)を提案する。
論文 参考訳(メタデータ) (2021-12-16T01:46:30Z) - Multi-Perspective LSTM for Joint Visual Representation Learning [81.21490913108835]
複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。
提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
論文 参考訳(メタデータ) (2021-05-06T16:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。