論文の概要: CoVLR: Coordinating Cross-Modal Consistency and Intra-Modal Structure
for Vision-Language Retrieval
- arxiv url: http://arxiv.org/abs/2304.07567v1
- Date: Sat, 15 Apr 2023 14:08:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 18:25:49.018211
- Title: CoVLR: Coordinating Cross-Modal Consistency and Intra-Modal Structure
for Vision-Language Retrieval
- Title(参考訳): covlr:視覚言語検索のためのクロスモーダル一貫性とイントラモーダル構造のコーディネート
- Authors: Yang Yang, Zhongtian Fu, Xiangyu Wu, Wenjie Li
- Abstract要約: 我々は,新しい直接協調型視覚言語検索法(dubed CoVLR)を提案する。
CoVLRは、クロスモーダルアライメントと単一モーダルクラスタ保存タスクの間の非同期問題を研究・緩和することを目的としている。
ベースラインと比較して、クロスモーダル検索能力を保ちながら、シングルモーダル検索精度を向上させることができる。
- 参考スコア(独自算出の注目度): 12.099842170664912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current vision-language retrieval aims to perform cross-modal instance
search, in which the core idea is to learn the consistent visionlanguage
representations. Although the performance of cross-modal retrieval has greatly
improved with the development of deep models, we unfortunately find that
traditional hard consistency may destroy the original relationships among
single-modal instances, leading the performance degradation for single-modal
retrieval. To address this challenge, in this paper, we experimentally observe
that the vision-language divergence may cause the existence of strong and weak
modalities, and the hard cross-modal consistency cannot guarantee that strong
modal instances' relationships are not affected by weak modality, resulting in
the strong modal instances' relationships perturbed despite learned consistent
representations.To this end, we propose a novel and directly Coordinated
VisionLanguage Retrieval method (dubbed CoVLR), which aims to study and
alleviate the desynchrony problem between the cross-modal alignment and
single-modal cluster-preserving tasks. CoVLR addresses this challenge by
developing an effective meta-optimization based strategy, in which the
cross-modal consistency objective and the intra-modal relation preserving
objective are acted as the meta-train and meta-test tasks, thereby CoVLR
encourages both tasks to be optimized in a coordinated way. Consequently, we
can simultaneously insure cross-modal consistency and intra-modal structure.
Experiments on different datasets validate CoVLR can improve single-modal
retrieval accuracy whilst preserving crossmodal retrieval capacity compared
with the baselines.
- Abstract(参考訳): 現在の視覚言語検索は、一貫した視覚言語表現を学習する中心となる概念であるクロスモーダルなインスタンス探索を行うことを目的としている。
深いモデルの開発によってクロスモーダル検索の性能は大幅に向上したが、残念ながら従来のハード一貫性はシングルモーダルインスタンス間の元の関係を破壊し、シングルモーダル検索のパフォーマンス低下につながる可能性がある。
To address this challenge, in this paper, we experimentally observe that the vision-language divergence may cause the existence of strong and weak modalities, and the hard cross-modal consistency cannot guarantee that strong modal instances' relationships are not affected by weak modality, resulting in the strong modal instances' relationships perturbed despite learned consistent representations.To this end, we propose a novel and directly Coordinated VisionLanguage Retrieval method (dubbed CoVLR), which aims to study and alleviate the desynchrony problem between the cross-modal alignment and single-modal cluster-preserving tasks.
CoVLRはこの課題に対処するため, クロスモーダル整合性目標とイントラモーダル関係保存目標をメタトレインおよびメタテストタスクとして動作させることにより, 両タスクを協調的に最適化する効果的なメタ最適化戦略を開発する。
その結果,クロスモーダル一貫性とイントラモーダル構造を同時に保証できる。
異なるデータセットの実験により、CoVLRはベースラインと比較してクロスモーダル検索能力を保ちながら、単一モーダル検索精度を向上させることができる。
関連論文リスト
- On the Comparison between Multi-modal and Single-modal Contrastive Learning [50.74988548106031]
マルチモーダルとシングルモーダルのコントラスト学習の違いを理解するための理論的基盤を導入する。
マルチモーダル・シングルモーダル・コントラッシブ・ラーニングの下流タスクにおける一般化に影響を及ぼす臨界因子,すなわち信号対雑音比(SNR)を同定する。
我々の分析は、単一モードと多モードのコントラスト学習の最適化と一般化を特徴付ける統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-05T06:21:17Z) - Feedback-based Modal Mutual Search for Attacking Vision-Language Pre-training Models [8.943713711458633]
我々は、フィードバックベースのモーダル・ミューチュアル・サーチ(FMMS)と呼ばれる新たな攻撃パラダイムを提案する。
FMMSは、マッチした画像とテキストのペアをランダムに描画しながら、特徴空間に不一致のペアを描画することを目的としている。
これは、ターゲットモデルフィードバックを利用して、マルチモーダリティの逆境を探索する最初の試みである。
論文 参考訳(メタデータ) (2024-08-27T02:31:39Z) - Leveraging Weak Cross-Modal Guidance for Coherence Modelling via Iterative Learning [66.28872204574648]
クロスモーダル・コヒーレンス・モデリングは、知的なシステムが情報を整理し構造化するのに不可欠である。
クロスモーダル・コヒーレンス・モデリングに関するこれまでの研究は、目標モーダルのコヒーレンス回復を支援するために、他のモーダルからの順序情報を活用することを試みた。
本報告では,コヒーレンシーに金のラベルを付けることなく,クロスモーダルガイダンスを活用する新しい手法について検討する。
論文 参考訳(メタデータ) (2024-08-01T06:04:44Z) - Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm [14.517103323409307]
Sim-to-realのギャップは、トレーニングとテスト環境の相違を表している。
この課題に対処するための有望なアプローチは、分布的に堅牢なRLである。
我々は対話型データ収集によるロバストなRLに取り組み、証明可能なサンプル複雑性を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-04T16:40:22Z) - Masked Contrastive Reconstruction for Cross-modal Medical Image-Report
Retrieval [3.5314225883644945]
クロスモーダル・メディカル・リポート検索は臨床診断や様々な医療生成タスクにおいて重要な役割を担っている。
本稿では,マスク付きデータを両タスクの唯一の入力として利用するMasked Contrastive and Reconstruction (MCR) という効率的なフレームワークを提案する。
これにより、タスク接続が強化され、情報の干渉や競合が軽減されると同時に、必要なGPUメモリとトレーニング時間を大幅に短縮する。
論文 参考訳(メタデータ) (2023-12-26T01:14:10Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。