論文の概要: Group Contrastive Learning for Weakly Paired Multimodal Data
- arxiv url: http://arxiv.org/abs/2602.04021v1
- Date: Tue, 03 Feb 2026 21:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.276863
- Title: Group Contrastive Learning for Weakly Paired Multimodal Data
- Title(参考訳): 弱ペア型マルチモーダルデータに対するグループコントラスト学習
- Authors: Aditya Gorla, Hugues Van Assel, Jan-Christian Huetter, Heming Yao, Kyunghyun Cho, Aviv Regev, Russell Littman,
- Abstract要約: GROOVEは、高濃度摂動データに対する半教師付きマルチモーダル表現学習手法である。
GroupCLIPは、ペア化されたクロスモーダルデータのためのCLIPと、一様教師付きコントラスト学習のためのSupConのギャップを埋める、新しいグループレベルのコントラスト損失である。
- 参考スコア(独自算出の注目度): 34.76498775412033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GROOVE, a semi-supervised multi-modal representation learning approach for high-content perturbation data where samples across modalities are weakly paired through shared perturbation labels but lack direct correspondence. Our primary contribution is GroupCLIP, a novel group-level contrastive loss that bridges the gap between CLIP for paired cross-modal data and SupCon for uni-modal supervised contrastive learning, addressing a fundamental gap in contrastive learning for weakly-paired settings. We integrate GroupCLIP with an on-the-fly backtranslating autoencoder framework to encourage cross-modally entangled representations while maintaining group-level coherence within a shared latent space. Critically, we introduce a comprehensive combinatorial evaluation framework that systematically assesses representation learners across multiple optimal transport aligners, addressing key limitations in existing evaluation strategies. This framework includes novel simulations that systematically vary shared versus modality-specific perturbation effects enabling principled assessment of method robustness. Our combinatorial benchmarking reveals that there is not yet an aligner that uniformly dominates across settings or modality pairs. Across simulations and two real single-cell genetic perturbation datasets, GROOVE performs on par with or outperforms existing approaches for downstream cross-modal matching and imputation tasks. Our ablation studies demonstrate that GroupCLIP is the key component driving performance gains. These results highlight the importance of leveraging group-level constraints for effective multi-modal representation learning in scenarios where only weak pairing is available.
- Abstract(参考訳): 本稿では,高濃度摂動データに対する半教師付きマルチモーダル表現学習手法GROOVEを提案する。
我々の主な貢献はグループレベルのコントラスト的損失であるGroupCLIPであり、これはペア化されたクロスモーダルデータのためのCLIPと一様教師付きコントラスト的学習のためのSupConのギャップを橋渡しし、弱いペア付き設定のためのコントラスト的学習における根本的なギャップに対処する。
我々はGroupCLIPをオンザフライでバック翻訳するオートエンコーダフレームワークと統合し、グループレベルの一貫性を維持しつつ、相互に絡み合った表現を促進する。
本稿では,複数の最適トランスポートコーディネータにまたがる表現学習者を体系的に評価し,既存の評価戦略における重要な制約に対処する総合的な組合せ評価フレームワークを提案する。
このフレームワークには、メソッドロバストネスの原理的評価を可能にする共有対モダリティ固有の摂動効果を体系的に変化させる新しいシミュレーションが含まれている。
私たちの組合せベンチマークでは、設定やモダリティのペアを統一的に支配する調整器がまだ存在しないことが示されています。
シミュレーションと2つの実際の単一細胞遺伝的摂動データセットを合わせて、GROOVEは、下流のクロスモーダルマッチングと計算タスクに対する既存のアプローチに匹敵する、あるいは優れる。
我々のアブレーション研究は、GroupCLIPがパフォーマンス向上の鍵となるコンポーネントであることを示している。
これらの結果は、弱いペアリングしかできないシナリオにおいて、効果的なマルチモーダル表現学習にグループレベルの制約を活用することの重要性を強調している。
関連論文リスト
- Hierarchical Identity Learning for Unsupervised Visible-Infrared Person Re-Identification [81.3063589622217]
教師なし可視赤外線人物再識別(USVI-ReID)は、ラベルのないクロスモーダルな人物データセットからモダリティ不変の画像特徴を学習することを目的としている。
論文 参考訳(メタデータ) (2025-09-15T05:10:43Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly
Supervised Relation Extraction [24.853265244512954]
雑音の少ない文を抽出するための階層的コントラスト学習フレームワーク (HiCLRE) を提案する。
具体的には,3段階の階層型学習フレームワークを提案する。
実験により、HiCLREは様々なメインストリームDSREデータセットにおいて、強いベースラインを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-27T12:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。