論文の概要: Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with
Adversarial Discriminative Domain Regularization
- arxiv url: http://arxiv.org/abs/2010.12126v2
- Date: Tue, 27 Oct 2020 23:42:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:00:31.325505
- Title: Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with
Adversarial Discriminative Domain Regularization
- Title(参考訳): Deep Metric Learningを超えて:敵対的差別的ドメイン規則化によるクロスモーダルマッチングを促進する
- Authors: Li Ren, Kai Li, LiQiang Wang, Kien Hua
- Abstract要約: 本稿では,画像とテキストのペア内における識別データドメインの集合を構築するための新しい学習フレームワークを提案する。
我々のアプローチは一般的に既存のメトリクス学習フレームワークの学習効率と性能を改善することができる。
- 参考スコア(独自算出の注目度): 21.904563910555368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matching information across image and text modalities is a fundamental
challenge for many applications that involve both vision and natural language
processing. The objective is to find efficient similarity metrics to compare
the similarity between visual and textual information. Existing approaches
mainly match the local visual objects and the sentence words in a shared space
with attention mechanisms. The matching performance is still limited because
the similarity computation is based on simple comparisons of the matching
features, ignoring the characteristics of their distribution in the data. In
this paper, we address this limitation with an efficient learning objective
that considers the discriminative feature distributions between the visual
objects and sentence words. Specifically, we propose a novel Adversarial
Discriminative Domain Regularization (ADDR) learning framework, beyond the
paradigm metric learning objective, to construct a set of discriminative data
domains within each image-text pairs. Our approach can generally improve the
learning efficiency and the performance of existing metrics learning frameworks
by regulating the distribution of the hidden space between the matching pairs.
The experimental results show that this new approach significantly improves the
overall performance of several popular cross-modal matching techniques (SCAN,
VSRN, BFAN) on the MS-COCO and Flickr30K benchmarks.
- Abstract(参考訳): 画像とテキストのモダリティをまたいだ情報のマッチングは、視覚と自然言語処理の両方を含む多くのアプリケーションにとって基本的な課題である。
その目的は、視覚的情報とテキスト情報の類似度を比較するための効率的な類似度指標を見つけることである。
既存のアプローチは主に、共有空間内の局所的な視覚オブジェクトと文語を注意機構で一致させる。
類似性計算は、一致する特徴の単純な比較に基づいており、データの分布の特徴を無視しているため、マッチング性能はまだ限られている。
本稿では,この制限を視覚オブジェクトと文語間の識別的特徴分布を考慮した効率的な学習目標を用いて解決する。
具体的には,各画像テキストペア内の識別データドメインのセットを構築するために,パラダイムメトリック学習目標を超えて,新しいadversarial discriminative domain regularization (addr) 学習フレームワークを提案する。
このアプローチは,マッチングペア間の隠れ空間の分布を規制することにより,既存のメトリクス学習フレームワークの学習効率とパフォーマンスを一般的に向上させることができる。
実験の結果、この新しい手法はMS-COCOとFlickr30Kベンチマークにおいて、いくつかの一般的なクロスモーダルマッチング技術(SCAN、VSRN、BFAN)の全体的な性能を著しく向上させることが示された。
関連論文リスト
- Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - DEMO: A Statistical Perspective for Efficient Image-Text Matching [32.256725860652914]
本稿では,効率的な画像テキストマッチングのための分散型構造マイニングと一貫性学習(DEMO)を提案する。
DEMOは、複数の拡張ビューを使用して各画像を特徴付け、本質的な意味分布から引き出されたサンプルと見なされる。
さらに,ハミング空間の類似構造を保存するだけでなく,異なる方向からの検索分布の整合性も促進する協調的一貫性学習を導入する。
論文 参考訳(メタデータ) (2024-05-19T09:38:56Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal
Document Classification [3.7798600249187295]
文書データからのマルチモーダル学習は、前もって意味論的に意味のある機能を学習可能な下流タスクに事前学習可能にすることで、近年大きな成功を収めている。
本稿では,言語と視覚の手がかりを通したクロスモーダル表現の学習により,文書分類問題にアプローチする。
提案手法は,ハイレベルなインタラクションを利用して,モダリティ内外における効果的な注意の流れから関連する意味情報を学習する。
論文 参考訳(メタデータ) (2022-05-24T12:28:12Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。