Fugu-MT 論文翻訳(概要): Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with Adversarial Discriminative Domain Regularization

論文の概要: Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with Adversarial Discriminative Domain Regularization

arxiv url: http://arxiv.org/abs/2010.12126v2
Date: Tue, 27 Oct 2020 23:42:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 23:00:31.325505
Title: Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with Adversarial Discriminative Domain Regularization
Title（参考訳）: Deep Metric Learningを超えて:敵対的差別的ドメイン規則化によるクロスモーダルマッチングを促進する
Authors: Li Ren, Kai Li, LiQiang Wang, Kien Hua
Abstract要約: 本稿では,画像とテキストのペア内における識別データドメインの集合を構築するための新しい学習フレームワークを提案する。我々のアプローチは一般的に既存のメトリクス学習フレームワークの学習効率と性能を改善することができる。
参考スコア（独自算出の注目度）: 21.904563910555368
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Matching information across image and text modalities is a fundamental challenge for many applications that involve both vision and natural language processing. The objective is to find efficient similarity metrics to compare the similarity between visual and textual information. Existing approaches mainly match the local visual objects and the sentence words in a shared space with attention mechanisms. The matching performance is still limited because the similarity computation is based on simple comparisons of the matching features, ignoring the characteristics of their distribution in the data. In this paper, we address this limitation with an efficient learning objective that considers the discriminative feature distributions between the visual objects and sentence words. Specifically, we propose a novel Adversarial Discriminative Domain Regularization (ADDR) learning framework, beyond the paradigm metric learning objective, to construct a set of discriminative data domains within each image-text pairs. Our approach can generally improve the learning efficiency and the performance of existing metrics learning frameworks by regulating the distribution of the hidden space between the matching pairs. The experimental results show that this new approach significantly improves the overall performance of several popular cross-modal matching techniques (SCAN, VSRN, BFAN) on the MS-COCO and Flickr30K benchmarks.
Abstract（参考訳）: 画像とテキストのモダリティをまたいだ情報のマッチングは、視覚と自然言語処理の両方を含む多くのアプリケーションにとって基本的な課題である。その目的は、視覚的情報とテキスト情報の類似度を比較するための効率的な類似度指標を見つけることである。既存のアプローチは主に、共有空間内の局所的な視覚オブジェクトと文語を注意機構で一致させる。類似性計算は、一致する特徴の単純な比較に基づいており、データの分布の特徴を無視しているため、マッチング性能はまだ限られている。本稿では,この制限を視覚オブジェクトと文語間の識別的特徴分布を考慮した効率的な学習目標を用いて解決する。具体的には,各画像テキストペア内の識別データドメインのセットを構築するために,パラダイムメトリック学習目標を超えて,新しいadversarial discriminative domain regularization (addr) 学習フレームワークを提案する。このアプローチは,マッチングペア間の隠れ空間の分布を規制することにより,既存のメトリクス学習フレームワークの学習効率とパフォーマンスを一般的に向上させることができる。実験の結果、この新しい手法はMS-COCOとFlickr30Kベンチマークにおいて、いくつかの一般的なクロスモーダルマッチング技術(SCAN、VSRN、BFAN)の全体的な性能を著しく向上させることが示された。

関連論文リスト

Ambiguity-Aware and High-Order Relation Learning for Multi-Grained Image-Text Matching [6.633576185707164]
本稿では,これらの問題に対処するためのAmbiguity-Aware and High-order Relation Learning framework (AAHR)を提案する。このフレームワークはグローバルかつ局所的な特徴抽出機構と適応集約ネットワークを導入し、完全な意味理解能力を大幅に強化する。実験の結果、AAHRはFlickr30K、MSCOCO、ECCV Captionデータセットの既存の最先端手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-07-12T11:30:32Z)
Adding simple structure at inference improves Vision-Language Compositionality [15.785274903236663]
本稿では,イメージとキャプションが与えられた場合,イメージを小さな作物に分割する,推論時に単純な構造を加えることを提案する。提案手法は,評価された視覚言語モデルの性能をトレーニングなしで継続的に改善する。
論文参考訳（メタデータ） (2025-06-11T13:06:25Z)
Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文参考訳（メタデータ） (2024-07-14T15:02:54Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
DEMO: A Statistical Perspective for Efficient Image-Text Matching [32.256725860652914]
本稿では,効率的な画像テキストマッチングのための分散型構造マイニングと一貫性学習(DEMO)を提案する。 DEMOは、複数の拡張ビューを使用して各画像を特徴付け、本質的な意味分布から引き出されたサンプルと見なされる。さらに,ハミング空間の類似構造を保存するだけでなく,異なる方向からの検索分布の整合性も促進する協調的一貫性学習を導入する。
論文参考訳（メタデータ） (2024-05-19T09:38:56Z)
Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。 3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文参考訳（メタデータ） (2023-09-15T04:39:11Z)
VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal Document Classification [3.7798600249187295]
文書データからのマルチモーダル学習は、前もって意味論的に意味のある機能を学習可能な下流タスクに事前学習可能にすることで、近年大きな成功を収めている。本稿では,言語と視覚の手がかりを通したクロスモーダル表現の学習により,文書分類問題にアプローチする。提案手法は,ハイレベルなインタラクションを利用して,モダリティ内外における効果的な注意の流れから関連する意味情報を学習する。
論文参考訳（メタデータ） (2022-05-24T12:28:12Z)
Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文参考訳（メタデータ） (2021-08-23T09:31:18Z)
Dynamic Semantic Matching and Aggregation Network for Few-shot Intent Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文参考訳（メタデータ） (2020-10-06T05:16:38Z)
Region Comparison Network for Interpretable Few-shot Image Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文参考訳（メタデータ） (2020-09-08T07:29:05Z)
Cross-Domain Facial Expression Recognition: A Unified Evaluation Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-08-03T15:00:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。