論文の概要: Maximal Matching Matters: Preventing Representation Collapse for Robust Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2506.21538v1
- Date: Thu, 26 Jun 2025 17:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.237584
- Title: Maximal Matching Matters: Preventing Representation Collapse for Robust Cross-Modal Retrieval
- Title(参考訳): 最大マッチング項目:ロバストなクロスモーダル検索のための表現崩壊防止
- Authors: Hani Alomari, Anushka Sivakumar, Andrew Zhang, Chris Thomas,
- Abstract要約: モダリティの異なるコンテンツ間の多様な関連性のため、モダリティ間の画像テキスト検索は困難である。
従来の手法では、各サンプルのセマンティクスを表現するために、単一ベクトルの埋め込みを学ぶ。
各サンプルを複数の埋め込みで表現するセットベースのアプローチは、有望な代替手段を提供する。
- 参考スコア(独自算出の注目度): 0.5999777817331317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal image-text retrieval is challenging because of the diverse possible associations between content from different modalities. Traditional methods learn a single-vector embedding to represent semantics of each sample, but struggle to capture nuanced and diverse relationships that can exist across modalities. Set-based approaches, which represent each sample with multiple embeddings, offer a promising alternative, as they can capture richer and more diverse relationships. In this paper, we show that, despite their promise, these set-based representations continue to face issues including sparse supervision and set collapse, which limits their effectiveness. To address these challenges, we propose Maximal Pair Assignment Similarity to optimize one-to-one matching between embedding sets which preserve semantic diversity within the set. We also introduce two loss functions to further enhance the representations: Global Discriminative Loss to enhance distinction among embeddings, and Intra-Set Divergence Loss to prevent collapse within each set. Our method achieves state-of-the-art performance on MS-COCO and Flickr30k without relying on external data.
- Abstract(参考訳): モダリティの異なるコンテンツ間の多様な関連性のため、モダリティ間の画像テキスト検索は困難である。
従来の手法では、各サンプルのセマンティクスを表現するために単一のベクタ埋め込みを学習するが、モダリティにまたがる微妙で多様な関係を捉えるのに苦労する。
各サンプルを複数の埋め込みで表現するセットベースのアプローチは、よりリッチで多様な関係をキャプチャできる、有望な代替手段を提供する。
本稿では,それらの約束にもかかわらず,これらのセットベース表現は,まばらな監督や崩壊といった問題に直面し続け,その効果を制限していることを示す。
これらの課題に対処するために,集合内の意味的多様性を保持する埋め込み集合間の一対一マッチングを最適化するために,最大ペア割り当て類似性を提案する。
また,2つの損失関数を導入して表現をさらに強化する: 埋め込みの区別を強化するグローバル識別損失と,各集合内の崩壊を防ぐためのセット内分散損失である。
提案手法は,MS-COCOおよびFlickr30k上で,外部データに頼らずに最先端の性能を実現する。
関連論文リスト
- BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - Tackling Ambiguity from Perspective of Uncertainty Inference and Affinity Diversification for Weakly Supervised Semantic Segmentation [12.308473939796945]
画像レベルのラベルを持つ弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は、退屈なアノテーションを使わずに高密度なタスクを実現することを目的としている。
WSSSの性能、特にクラス活性化マップ(CAM)の生成と擬似マスクの精製の段階では、あいまいさに悩まされている。
統一された単一ステージWSSSフレームワークであるUniAを提案し、不確実性推論と親和性多様化の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-04-12T01:54:59Z) - Cross-Modal Coordination Across a Diverse Set of Input Modalities [0.0]
クロスモーダル検索は、異なるモダリティのクエリを用いて、与えられたモダリティのサンプルを検索するタスクである。
本稿では,CLIPの相対的目的を任意の数の入力モダリティに拡張した上で,この問題に対する2つのアプローチを提案する。
第2は、対照的な定式化から外れ、目標に向かってモデアルの類似性を回帰することで調整問題に取り組む。
論文 参考訳(メタデータ) (2024-01-29T17:53:25Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Improving Cross-Modal Retrieval with Set of Diverse Embeddings [19.365974066256026]
画像とテキストのモダリティを横断するクロスモーダル検索は、その固有の曖昧さのために難しい課題である。
この問題の解決策として、セットベースの埋め込みが研究されている。
本稿では,従来の2つの側面において異なる,新しい集合ベースの埋め込み手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T05:59:23Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - COBRA: Contrastive Bi-Modal Representation Algorithm [43.33840912256077]
本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにインスパイアされた,2つのモダリティの学習を目的とした新しいフレームワークを提案する。
本研究では,この枠組みがモダリティギャップを大幅に減らし,ロバストでタスクに依存しない共同埋め込み空間を生成することを実証的に示す。
7つのベンチマークのクロスモーダルデータセットにまたがる4つのダウンストリームタスクにおいて、既存の作業よりも優れています。
論文 参考訳(メタデータ) (2020-05-07T18:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。