Fugu-MT 論文翻訳(概要): MXM-CLR: A Unified Framework for Contrastive Learning of Multifold Cross-Modal Representations

論文の概要: MXM-CLR: A Unified Framework for Contrastive Learning of Multifold Cross-Modal Representations

arxiv url: http://arxiv.org/abs/2303.10839v2
Date: Tue, 21 Mar 2023 02:37:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-22 11:11:26.669302
Title: MXM-CLR: A Unified Framework for Contrastive Learning of Multifold Cross-Modal Representations
Title（参考訳）: MXM-CLR:マルチフォールド・クロスモーダル表現のコントラスト学習のための統一フレームワーク
Authors: Ye Wang, Bowei Jiang, Changqing Zou, Rui Ma
Abstract要約: マルチフォールド・クロスモーダル表現のコントラスト学習のための統合フレームワークMXM-CLRを提案する。 XM-CLRは、異なるモードからインスタンスの多重折りたたみ観測の関係を明示的にモデル化し、学習する。その結果,マルチフォールドデータの表現性を向上させる上で,MXM-CLRの優位性が示された。
参考スコア（独自算出の注目度）: 14.355743915598554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multifold observations are common for different data modalities, e.g., a 3D shape can be represented by multi-view images and an image can be described with different captions. Existing cross-modal contrastive representation learning (XM-CLR) methods such as CLIP are not fully suitable for multifold data as they only consider one positive pair and treat other pairs as negative when computing the contrastive loss. In this paper, we propose MXM-CLR, a unified framework for contrastive learning of multifold cross-modal representations. MXM-CLR explicitly models and learns the relationships between multifold observations of instances from different modalities for more comprehensive representation learning. The key of MXM-CLR is a novel multifold-aware hybrid loss which considers multiple positive observations when computing the hard and soft relationships for the cross-modal data pairs. We conduct quantitative and qualitative comparisons with SOTA baselines for cross-modal retrieval tasks on the Text2Shape and Flickr30K datasets. We also perform extensive evaluations on the adaptability and generalizability of MXM-CLR, as well as ablation studies on the loss design and effects of batch sizes. The results show the superiority of MXM-CLR in learning better representations for the multifold data. The code is available at https://github.com/JLU-ICL/MXM-CLR.
Abstract（参考訳）: 例えば、3次元の形状は多視点画像で表現でき、画像は異なるキャプションで記述できる。 CLIPのような既存のクロスモーダル・コントラスト表現学習(XM-CLR)法は、1つの正のペアのみを考慮し、他のペアを負のペアとして扱うため、マルチフォールドデータに完全には適していない。本稿では,マルチフォールド・クロスモーダル表現のコントラスト学習のための統合フレームワークMXM-CLRを提案する。 MXM-CLRは、より包括的な表現学習のために、異なるモダリティからインスタンスの多重度観測の関係を明示的にモデル化し、学習する。 MXM-CLRの鍵は、クロスモーダルデータペアのハードとソフトの関係を計算する際に、複数のポジティブな観測を考慮に入れた、新しいマルチフォールド対応ハイブリッド損失である。我々は,Text2Shape と Flickr30K データセットの相互モーダル検索タスクに対して,SOTA ベースラインと定量的,質的な比較を行う。また,MXM-CLRの適応性と一般化性,およびバッチサイズによる損失設計と効果に関するアブレーション研究も行った。その結果,マルチフォールドデータの表現性向上にMXM-CLRが優れていることが示された。コードはhttps://github.com/JLU-ICL/MXM-CLRで公開されている。

関連論文リスト

Retrieval-augmented in-context learning for multimodal large language models in disease classification [18.48849976529677]
RAICLは、検索強化世代(RAG)とコンテキスト内学習(ICL)を統合し、同様の病気パターンを持つデモを適応的に選択する。このフレームワークを実世界の2つのマルチモーダルデータセット上で評価した。
論文参考訳（メタデータ） (2025-05-04T12:43:56Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。実験では、教師なしマルチビュークラスタリング、ノイズラベル分類、およびクロスモーダルハッシュ検索のためのプラグ・アンド・プレイモジュールとして採用する。
論文参考訳（メタデータ） (2025-03-06T07:01:08Z)
Multi-View Factorizing and Disentangling: A Novel Framework for Incomplete Multi-View Multi-Label Classification [9.905528765058541]
非完全多視点マルチラベル分類(iMvMLC)のための新しいフレームワークを提案する。本手法は,多視点表現をビュー一貫性とビュー固有の2つの独立した要素に分解する。我々のフレームワークは、一貫した表現学習を3つの重要なサブオブジェクトに革新的に分解する。
論文参考訳（メタデータ） (2025-01-11T12:19:20Z)
Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文参考訳（メタデータ） (2024-12-07T22:46:52Z)
Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval [73.77101139365912]
効率的なクロスレゾリューションモデリングのための線形計算複雑性を持つマルチスケールマンバであるMUSEを提案する。具体的には、最後の単一スケールのフィーチャーマップに特徴ピラミッドを適用することで、マルチスケールの表現を生成する。我々は,Mamba構造を効率的なマルチスケール学習者として用いて,スケールワイド表現を共同学習する。
論文参考訳（メタデータ） (2024-08-20T06:30:37Z)
MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文参考訳（メタデータ） (2024-07-21T21:22:58Z)
MMCL: Boosting Deformable DETR-Based Detectors with Multi-Class Min-Margin Contrastive Learning for Superior Prohibited Item Detection [8.23801404004195]
X線画像における禁止項目検出は、最も効果的なセキュリティ検査方法の1つである。 X線画像における特異な現象が重なり合うと、前景と背景の特徴が結合する。コンテンツクエリのカテゴリ意味情報を明らかにするために,Multi-class Min-Margin Contrastive Learning (MMCL)法を提案する。
論文参考訳（メタデータ） (2024-06-05T12:07:58Z)
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文参考訳（メタデータ） (2024-02-08T18:59:48Z)
CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly Supervised Text-based Person Re-Identification [10.64115914599574]
弱教師付きテキストベース人物識別(TPRe-ID)は、テキスト記述を用いて対象人物の画像の検索を試みる。主な課題はクラス内の違いであり、モーダル内特徴のバリエーションとモーダル間のセマンティックギャップを含んでいる。実際には、CPCLはCLIPモデルを初めて弱教師付きTPRe-IDに導入し、ビジュアルインスタンスとテキストインスタンスを共有潜在空間にマッピングする。
論文参考訳（メタデータ） (2024-01-18T14:27:01Z)
Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-10-08T10:47:24Z)
On the Generalization of Multi-modal Contrastive Learning [21.849681446573257]
MMCLがマルチモーダルペアから有用な視覚表現を抽出する方法について検討する。テキストペアは、より意味論的に一貫性があり、多様な正のペアを誘導することを示す。この発見に触発されて,イメージネット上でのSSCLのダウンストリーム性能を大幅に向上させるCLIP誘導再サンプリング手法を提案する。
論文参考訳（メタデータ） (2023-06-07T09:13:56Z)
Understanding Multimodal Contrastive Learning and Incorporating Unpaired Data [19.72282903349282]
マルチモーダル・コントラッシブ・ラーニング(MMCL)における非線形損失関数の一般クラスを示す。 MMCLの特徴学習能力は,各モダリティに適用される一助的コントラスト学習能力よりも優れていることを示す。追加の未ペアデータにアクセスできる場合、追加の未ペアデータを含む新たなMMCL損失を提案する。
論文参考訳（メタデータ） (2023-02-13T10:11:05Z)
Multi-view Multi-behavior Contrastive Learning in Recommendation [52.42597422620091]
マルチビヘイビアレコメンデーション(MBR)は、目標行動のパフォーマンスを改善するために、複数の振る舞いを共同で検討することを目的としている。本稿では,新しいマルチビヘイビア・マルチビュー・コントラスト学習勧告フレームワークを提案する。
論文参考訳（メタデータ） (2022-03-20T15:13:28Z)
Hierarchical Cross-Modality Semantic Correlation Learning Model for Multimodal Summarization [4.714335699701277]
マルチモーダル出力(MSMO)によるマルチモーダル要約は、テキストコンテンツとビジュアルコンテンツの両方で要約を生成する。従来のMSMOメソッドは、データ全体の表現を学習することで、異なるデータモダリティを区別できない方法で処理する。マルチモーダルデータに存在するモーダル内およびモーダル間相関を学習するための階層的相互モーダル意味相関学習モデル(HCSCL)を提案する。
論文参考訳（メタデータ） (2021-12-16T01:46:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。