論文の概要: MXM-CLR: A Unified Framework for Contrastive Learning of Multifold
Cross-Modal Representations
- arxiv url: http://arxiv.org/abs/2303.10839v2
- Date: Tue, 21 Mar 2023 02:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 11:11:26.669302
- Title: MXM-CLR: A Unified Framework for Contrastive Learning of Multifold
Cross-Modal Representations
- Title(参考訳): MXM-CLR:マルチフォールド・クロスモーダル表現のコントラスト学習のための統一フレームワーク
- Authors: Ye Wang, Bowei Jiang, Changqing Zou, Rui Ma
- Abstract要約: マルチフォールド・クロスモーダル表現のコントラスト学習のための統合フレームワークMXM-CLRを提案する。
XM-CLRは、異なるモードからインスタンスの多重折りたたみ観測の関係を明示的にモデル化し、学習する。
その結果,マルチフォールドデータの表現性を向上させる上で,MXM-CLRの優位性が示された。
- 参考スコア(独自算出の注目度): 14.355743915598554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multifold observations are common for different data modalities, e.g., a 3D
shape can be represented by multi-view images and an image can be described
with different captions. Existing cross-modal contrastive representation
learning (XM-CLR) methods such as CLIP are not fully suitable for multifold
data as they only consider one positive pair and treat other pairs as negative
when computing the contrastive loss. In this paper, we propose MXM-CLR, a
unified framework for contrastive learning of multifold cross-modal
representations. MXM-CLR explicitly models and learns the relationships between
multifold observations of instances from different modalities for more
comprehensive representation learning. The key of MXM-CLR is a novel
multifold-aware hybrid loss which considers multiple positive observations when
computing the hard and soft relationships for the cross-modal data pairs. We
conduct quantitative and qualitative comparisons with SOTA baselines for
cross-modal retrieval tasks on the Text2Shape and Flickr30K datasets. We also
perform extensive evaluations on the adaptability and generalizability of
MXM-CLR, as well as ablation studies on the loss design and effects of batch
sizes. The results show the superiority of MXM-CLR in learning better
representations for the multifold data. The code is available at
https://github.com/JLU-ICL/MXM-CLR.
- Abstract(参考訳): 例えば、3次元の形状は多視点画像で表現でき、画像は異なるキャプションで記述できる。
CLIPのような既存のクロスモーダル・コントラスト表現学習(XM-CLR)法は、1つの正のペアのみを考慮し、他のペアを負のペアとして扱うため、マルチフォールドデータに完全には適していない。
本稿では,マルチフォールド・クロスモーダル表現のコントラスト学習のための統合フレームワークMXM-CLRを提案する。
MXM-CLRは、より包括的な表現学習のために、異なるモダリティからインスタンスの多重度観測の関係を明示的にモデル化し、学習する。
MXM-CLRの鍵は、クロスモーダルデータペアのハードとソフトの関係を計算する際に、複数のポジティブな観測を考慮に入れた、新しいマルチフォールド対応ハイブリッド損失である。
我々は,Text2Shape と Flickr30K データセットの相互モーダル検索タスクに対して,SOTA ベースラインと定量的,質的な比較を行う。
また,MXM-CLRの適応性と一般化性,およびバッチサイズによる損失設計と効果に関するアブレーション研究も行った。
その結果,マルチフォールドデータの表現性向上にMXM-CLRが優れていることが示された。
コードはhttps://github.com/JLU-ICL/MXM-CLRで公開されている。
関連論文リスト
- Multi-View Factorizing and Disentangling: A Novel Framework for Incomplete Multi-View Multi-Label Classification [9.905528765058541]
非完全多視点マルチラベル分類(iMvMLC)のための新しいフレームワークを提案する。
本手法は,多視点表現をビュー一貫性とビュー固有の2つの独立した要素に分解する。
我々のフレームワークは、一貫した表現学習を3つの重要なサブオブジェクトに革新的に分解する。
論文 参考訳(メタデータ) (2025-01-11T12:19:20Z) - LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes [55.33167217384738]
LiMoEは、Mixture of Experts(MoE)パラダイムをLiDARデータ表現学習に統合するフレームワークである。
我々のアプローチは3つの段階からなる: Image-to-LiDAR Pretraining, Contrastive Mixture Learning (CML), Semantic Mixture Supervision (SMS)。
論文 参考訳(メタデータ) (2025-01-07T18:59:58Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。
実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。
命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T22:46:52Z) - MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval [73.77101139365912]
効率的なクロスレゾリューションモデリングのための線形計算複雑性を持つマルチスケールマンバであるMUSEを提案する。
具体的には、最後の単一スケールのフィーチャーマップに特徴ピラミッドを適用することで、マルチスケールの表現を生成する。
我々は,Mamba構造を効率的なマルチスケール学習者として用いて,スケールワイド表現を共同学習する。
論文 参考訳(メタデータ) (2024-08-20T06:30:37Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - MMCL: Boosting Deformable DETR-Based Detectors with Multi-Class Min-Margin Contrastive Learning for Superior Prohibited Item Detection [8.23801404004195]
X線画像における禁止項目検出は、最も効果的なセキュリティ検査方法の1つである。
X線画像における特異な現象が重なり合うと、前景と背景の特徴が結合する。
コンテンツクエリのカテゴリ意味情報を明らかにするために,Multi-class Min-Margin Contrastive Learning (MMCL)法を提案する。
論文 参考訳(メタデータ) (2024-06-05T12:07:58Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - On the Generalization of Multi-modal Contrastive Learning [21.849681446573257]
MMCLがマルチモーダルペアから有用な視覚表現を抽出する方法について検討する。
テキストペアは、より意味論的に一貫性があり、多様な正のペアを誘導することを示す。
この発見に触発されて,イメージネット上でのSSCLのダウンストリーム性能を大幅に向上させるCLIP誘導再サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T09:13:56Z) - Hierarchical Cross-Modality Semantic Correlation Learning Model for
Multimodal Summarization [4.714335699701277]
マルチモーダル出力(MSMO)によるマルチモーダル要約は、テキストコンテンツとビジュアルコンテンツの両方で要約を生成する。
従来のMSMOメソッドは、データ全体の表現を学習することで、異なるデータモダリティを区別できない方法で処理する。
マルチモーダルデータに存在するモーダル内およびモーダル間相関を学習するための階層的相互モーダル意味相関学習モデル(HCSCL)を提案する。
論文 参考訳(メタデータ) (2021-12-16T01:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。