論文の概要: MXM-CLR: A Unified Framework for Contrastive Learning of Multifold
Cross-Modal Representations
- arxiv url: http://arxiv.org/abs/2303.10839v2
- Date: Tue, 21 Mar 2023 02:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 11:11:26.669302
- Title: MXM-CLR: A Unified Framework for Contrastive Learning of Multifold
Cross-Modal Representations
- Title(参考訳): MXM-CLR:マルチフォールド・クロスモーダル表現のコントラスト学習のための統一フレームワーク
- Authors: Ye Wang, Bowei Jiang, Changqing Zou, Rui Ma
- Abstract要約: マルチフォールド・クロスモーダル表現のコントラスト学習のための統合フレームワークMXM-CLRを提案する。
XM-CLRは、異なるモードからインスタンスの多重折りたたみ観測の関係を明示的にモデル化し、学習する。
その結果,マルチフォールドデータの表現性を向上させる上で,MXM-CLRの優位性が示された。
- 参考スコア(独自算出の注目度): 14.355743915598554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multifold observations are common for different data modalities, e.g., a 3D
shape can be represented by multi-view images and an image can be described
with different captions. Existing cross-modal contrastive representation
learning (XM-CLR) methods such as CLIP are not fully suitable for multifold
data as they only consider one positive pair and treat other pairs as negative
when computing the contrastive loss. In this paper, we propose MXM-CLR, a
unified framework for contrastive learning of multifold cross-modal
representations. MXM-CLR explicitly models and learns the relationships between
multifold observations of instances from different modalities for more
comprehensive representation learning. The key of MXM-CLR is a novel
multifold-aware hybrid loss which considers multiple positive observations when
computing the hard and soft relationships for the cross-modal data pairs. We
conduct quantitative and qualitative comparisons with SOTA baselines for
cross-modal retrieval tasks on the Text2Shape and Flickr30K datasets. We also
perform extensive evaluations on the adaptability and generalizability of
MXM-CLR, as well as ablation studies on the loss design and effects of batch
sizes. The results show the superiority of MXM-CLR in learning better
representations for the multifold data. The code is available at
https://github.com/JLU-ICL/MXM-CLR.
- Abstract(参考訳): 例えば、3次元の形状は多視点画像で表現でき、画像は異なるキャプションで記述できる。
CLIPのような既存のクロスモーダル・コントラスト表現学習(XM-CLR)法は、1つの正のペアのみを考慮し、他のペアを負のペアとして扱うため、マルチフォールドデータに完全には適していない。
本稿では,マルチフォールド・クロスモーダル表現のコントラスト学習のための統合フレームワークMXM-CLRを提案する。
MXM-CLRは、より包括的な表現学習のために、異なるモダリティからインスタンスの多重度観測の関係を明示的にモデル化し、学習する。
MXM-CLRの鍵は、クロスモーダルデータペアのハードとソフトの関係を計算する際に、複数のポジティブな観測を考慮に入れた、新しいマルチフォールド対応ハイブリッド損失である。
我々は,Text2Shape と Flickr30K データセットの相互モーダル検索タスクに対して,SOTA ベースラインと定量的,質的な比較を行う。
また,MXM-CLRの適応性と一般化性,およびバッチサイズによる損失設計と効果に関するアブレーション研究も行った。
その結果,マルチフォールドデータの表現性向上にMXM-CLRが優れていることが示された。
コードはhttps://github.com/JLU-ICL/MXM-CLRで公開されている。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval [73.77101139365912]
効率的なクロスレゾリューションモデリングのための線形計算複雑性を持つマルチスケールマンバであるMUSEを提案する。
具体的には、最後の単一スケールのフィーチャーマップに特徴ピラミッドを適用することで、マルチスケールの表現を生成する。
我々は,Mamba構造を効率的なマルチスケール学習者として用いて,スケールワイド表現を共同学習する。
論文 参考訳(メタデータ) (2024-08-20T06:30:37Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - MMCL: Boosting Deformable DETR-Based Detectors with Multi-Class Min-Margin Contrastive Learning for Superior Prohibited Item Detection [8.23801404004195]
X線画像における禁止項目検出は、最も効果的なセキュリティ検査方法の1つである。
X線画像における特異な現象が重なり合うと、前景と背景の特徴が結合する。
コンテンツクエリのカテゴリ意味情報を明らかにするために,Multi-class Min-Margin Contrastive Learning (MMCL)法を提案する。
論文 参考訳(メタデータ) (2024-06-05T12:07:58Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly
Supervised Text-based Person Re-Identification [10.64115914599574]
弱教師付きテキストベース人物識別(TPRe-ID)は、テキスト記述を用いて対象人物の画像の検索を試みる。
主な課題はクラス内の違いであり、モーダル内特徴のバリエーションとモーダル間のセマンティックギャップを含んでいる。
実際には、CPCLはCLIPモデルを初めて弱教師付きTPRe-IDに導入し、ビジュアルインスタンスとテキストインスタンスを共有潜在空間にマッピングする。
論文 参考訳(メタデータ) (2024-01-18T14:27:01Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - On the Generalization of Multi-modal Contrastive Learning [21.849681446573257]
MMCLがマルチモーダルペアから有用な視覚表現を抽出する方法について検討する。
テキストペアは、より意味論的に一貫性があり、多様な正のペアを誘導することを示す。
この発見に触発されて,イメージネット上でのSSCLのダウンストリーム性能を大幅に向上させるCLIP誘導再サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T09:13:56Z) - Understanding Multimodal Contrastive Learning and Incorporating Unpaired
Data [19.72282903349282]
マルチモーダル・コントラッシブ・ラーニング(MMCL)における非線形損失関数の一般クラスを示す。
MMCLの特徴学習能力は,各モダリティに適用される一助的コントラスト学習能力よりも優れていることを示す。
追加の未ペアデータにアクセスできる場合、追加の未ペアデータを含む新たなMMCL損失を提案する。
論文 参考訳(メタデータ) (2023-02-13T10:11:05Z) - Multi-view Multi-behavior Contrastive Learning in Recommendation [52.42597422620091]
マルチビヘイビアレコメンデーション(MBR)は、目標行動のパフォーマンスを改善するために、複数の振る舞いを共同で検討することを目的としている。
本稿では,新しいマルチビヘイビア・マルチビュー・コントラスト学習勧告フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-20T15:13:28Z) - Hierarchical Cross-Modality Semantic Correlation Learning Model for
Multimodal Summarization [4.714335699701277]
マルチモーダル出力(MSMO)によるマルチモーダル要約は、テキストコンテンツとビジュアルコンテンツの両方で要約を生成する。
従来のMSMOメソッドは、データ全体の表現を学習することで、異なるデータモダリティを区別できない方法で処理する。
マルチモーダルデータに存在するモーダル内およびモーダル間相関を学習するための階層的相互モーダル意味相関学習モデル(HCSCL)を提案する。
論文 参考訳(メタデータ) (2021-12-16T01:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。