論文の概要: Rebalanced Vision-Language Retrieval Considering Structure-Aware Distillation
- arxiv url: http://arxiv.org/abs/2412.10761v1
- Date: Sat, 14 Dec 2024 09:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:57.222575
- Title: Rebalanced Vision-Language Retrieval Considering Structure-Aware Distillation
- Title(参考訳): 構造認識蒸留を考慮した再バランス型視覚言語検索
- Authors: Yang Yang, Wenjuan Xi, Luping Zhou, Jinhui Tang,
- Abstract要約: 視覚言語検索は、他のモダリティからのクエリに基づいて、類似したインスタンスを1つのモダリティで検索することを目的としている。
主な目的は、潜在共通空間におけるクロスモーダルマッチング表現を学習することである。
不均衡が検索性能に与える影響は未解決のままである。
- 参考スコア(独自算出の注目度): 44.03643049208946
- License:
- Abstract: Vision-language retrieval aims to search for similar instances in one modality based on queries from another modality. The primary objective is to learn cross-modal matching representations in a latent common space. Actually, the assumption underlying cross-modal matching is modal balance, where each modality contains sufficient information to represent the others. However, noise interference and modality insufficiency often lead to modal imbalance, making it a common phenomenon in practice. The impact of imbalance on retrieval performance remains an open question. In this paper, we first demonstrate that ultimate cross-modal matching is generally sub-optimal for cross-modal retrieval when imbalanced modalities exist. The structure of instances in the common space is inherently influenced when facing imbalanced modalities, posing a challenge to cross-modal similarity measurement. To address this issue, we emphasize the importance of meaningful structure-preserved matching. Accordingly, we propose a simple yet effective method to rebalance cross-modal matching by learning structure-preserved matching representations. Specifically, we design a novel multi-granularity cross-modal matching that incorporates structure-aware distillation alongside the cross-modal matching loss. While the cross-modal matching loss constraints instance-level matching, the structure-aware distillation further regularizes the geometric consistency between learned matching representations and intra-modal representations through the developed relational matching. Extensive experiments on different datasets affirm the superior cross-modal retrieval performance of our approach, simultaneously enhancing single-modal retrieval capabilities compared to the baseline models.
- Abstract(参考訳): 視覚言語検索は、他のモダリティからのクエリに基づいて、類似したインスタンスを1つのモダリティで検索することを目的としている。
主な目的は、潜在共通空間におけるクロスモーダルマッチング表現を学習することである。
実際、クロスモーダルマッチングの基礎となる仮定は、各モーダルが他を表現するのに十分な情報を含むモーダルバランスである。
しかし、ノイズ干渉とモダリティの不足は、しばしばモダリティの不均衡を引き起こすため、実際には一般的な現象である。
不均衡が検索性能に与える影響は未解決のままである。
本稿では,不均衡なモダリティが存在する場合,最終的なクロスモーダルマッチングが,一般的にはクロスモーダル検索に準最適であることを示す。
共通空間におけるインスタンスの構造は、不均衡なモダリティに直面する際に本質的に影響を受け、クロスモーダルな類似度測定に挑戦する。
この問題に対処するため、我々は有意義な構造保存マッチングの重要性を強調した。
そこで本研究では,構造保存型マッチング表現を学習することで,モーダル間マッチングを再バランスする,シンプルかつ効果的な手法を提案する。
具体的には, クロスモーダル整合損失とともに構造認識蒸留を取り入れた, 新規な多粒性クロスモーダルマッチングを設計する。
クロスモーダル整合損失制約のインスタンスレベルマッチングは、構造認識蒸留により、学習された整合表現とモーダル内表現との幾何的整合性をさらに規則化する。
異なるデータセットに対する大規模な実験により、我々のアプローチの優れたクロスモーダル検索性能が確認され、ベースラインモデルと比較して単一モーダル検索能力が向上した。
関連論文リスト
- Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - CoVLR: Coordinating Cross-Modal Consistency and Intra-Modal Structure
for Vision-Language Retrieval [11.49620599530686]
我々は,新しい直接協調型視覚言語検索法(dubed CoVLR)を提案する。
CoVLRは、クロスモーダルアライメントと単一モーダルクラスタ保存タスクの間の非同期問題を研究・緩和することを目的としている。
ベースラインと比較して、クロスモーダル検索能力を保ちながら、シングルモーダル検索精度を向上させることができる。
論文 参考訳(メタデータ) (2023-04-15T14:08:47Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Contrastive Cross-Modal Knowledge Sharing Pre-training for
Vision-Language Representation Learning and Retrieval [12.30468719055037]
コントラスト型クロスモーダル知識共有事前学習(COOKIE)を開発した。
最初のモジュールはウェイトシェアリングトランスフォーマーで、ビジュアルエンコーダとテキストエンコーダの頭の上に構築されている。
もう1つは、異なるモデル間で知識を共有することを目的として、特別に設計された3つの対照的な学習である。
論文 参考訳(メタデータ) (2022-07-02T04:08:44Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Universal Weighting Metric Learning for Cross-Modal Matching [79.32133554506122]
クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。
クロスモーダルマッチングのためのシンプルで解釈可能な普遍重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-07T13:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。