論文の概要: Universal Weighting Metric Learning for Cross-Modal Matching
- arxiv url: http://arxiv.org/abs/2010.03403v1
- Date: Wed, 7 Oct 2020 13:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:37:53.141539
- Title: Universal Weighting Metric Learning for Cross-Modal Matching
- Title(参考訳): クロスモーダルマッチングのためのユニバーサルウェイティングメトリックラーニング
- Authors: Jiwei Wei, Xing Xu, Yang Yang, Yanli Ji, Zheng Wang, Heng Tao Shen
- Abstract要約: クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。
クロスモーダルマッチングのためのシンプルで解釈可能な普遍重み付けフレームワークを提案する。
- 参考スコア(独自算出の注目度): 79.32133554506122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal matching has been a highlighted research topic in both vision and
language areas. Learning appropriate mining strategy to sample and weight
informative pairs is crucial for the cross-modal matching performance. However,
most existing metric learning methods are developed for unimodal matching,
which is unsuitable for cross-modal matching on multimodal data with
heterogeneous features. To address this problem, we propose a simple and
interpretable universal weighting framework for cross-modal matching, which
provides a tool to analyze the interpretability of various loss functions.
Furthermore, we introduce a new polynomial loss under the universal weighting
framework, which defines a weight function for the positive and negative
informative pairs respectively. Experimental results on two image-text matching
benchmarks and two video-text matching benchmarks validate the efficacy of the
proposed method.
- Abstract(参考訳): クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。
情報的ペアのサンプリングと重み付けのための適切なマイニング戦略の学習は、クロスモーダルマッチング性能に不可欠である。
しかし、既存のメトリック学習法はユニモーダルマッチングのために開発されており、異質な特徴を持つマルチモーダルデータのクロスモーダルマッチングには適していない。
この問題を解決するために,様々な損失関数の解釈可能性を分析するツールを提供するクロスモーダルマッチングのための,単純で解釈可能な普遍的重み付けフレームワークを提案する。
さらに,正と負の情報的対の重み関数をそれぞれ定義した普遍重み付けフレームワークの下で,新たな多項式損失を導入する。
2つの画像テキストマッチングベンチマークと2つのビデオテキストマッチングベンチマークの実験結果は,提案手法の有効性を検証する。
関連論文リスト
- GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Cross-Modal Coordination Across a Diverse Set of Input Modalities [0.0]
クロスモーダル検索は、異なるモダリティのクエリを用いて、与えられたモダリティのサンプルを検索するタスクである。
本稿では,CLIPの相対的目的を任意の数の入力モダリティに拡張した上で,この問題に対する2つのアプローチを提案する。
第2は、対照的な定式化から外れ、目標に向かってモデアルの類似性を回帰することで調整問題に取り組む。
論文 参考訳(メタデータ) (2024-01-29T17:53:25Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Cross-modal Contrastive Learning for Multimodal Fake News Detection [10.760000041969139]
COOLANTはマルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習フレームワークである。
クロスモーダル融合モジュールは、クロスモーダル相関を学習するために開発された。
アテンションガイダンスモジュールは、アライメントされたユニモーダル表現を効果的かつ解釈可能に集約するために実装される。
論文 参考訳(メタデータ) (2023-02-25T10:12:34Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - S2-Net: Self-supervision Guided Feature Representation Learning for
Cross-Modality Images [0.0]
モダリティ間の画像ペアは、通信の特徴表現を可能な限り近いものにするのに失敗することが多い。
本稿では,最近成功した検出・記述パイプラインに基づいて,モーダリティ間特徴表現学習ネットワークであるS2-Netを設計する。
本稿では,自己教師型学習とよく設計された損失関数を導入し,本来の利点を捨てることなくトレーニングを指導する。
論文 参考訳(メタデータ) (2022-03-28T08:47:49Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。