論文の概要: DEMO: A Statistical Perspective for Efficient Image-Text Matching
- arxiv url: http://arxiv.org/abs/2405.11496v1
- Date: Sun, 19 May 2024 09:38:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 17:18:28.090019
- Title: DEMO: A Statistical Perspective for Efficient Image-Text Matching
- Title(参考訳): DEMO: 効率的な画像テキストマッチングの統計的展望
- Authors: Fan Zhang, Xian-Sheng Hua, Chong Chen, Xiao Luo,
- Abstract要約: 本稿では,効率的な画像テキストマッチングのための分散型構造マイニングと一貫性学習(DEMO)を提案する。
DEMOは、複数の拡張ビューを使用して各画像を特徴付け、本質的な意味分布から引き出されたサンプルと見なされる。
さらに,ハミング空間の類似構造を保存するだけでなく,異なる方向からの検索分布の整合性も促進する協調的一貫性学習を導入する。
- 参考スコア(独自算出の注目度): 32.256725860652914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-text matching has been a long-standing problem, which seeks to connect vision and language through semantic understanding. Due to the capability to manage large-scale raw data, unsupervised hashing-based approaches have gained prominence recently. They typically construct a semantic similarity structure using the natural distance, which subsequently provides guidance to the model optimization process. However, the similarity structure could be biased at the boundaries of semantic distributions, causing error accumulation during sequential optimization. To tackle this, we introduce a novel hashing approach termed Distribution-based Structure Mining with Consistency Learning (DEMO) for efficient image-text matching. From a statistical view, DEMO characterizes each image using multiple augmented views, which are considered as samples drawn from its intrinsic semantic distribution. Then, we employ a non-parametric distribution divergence to ensure a robust and precise similarity structure. In addition, we introduce collaborative consistency learning which not only preserves the similarity structure in the Hamming space but also encourages consistency between retrieval distribution from different directions in a self-supervised manner. Through extensive experiments on three benchmark image-text matching datasets, we demonstrate that DEMO achieves superior performance compared with many state-of-the-art methods.
- Abstract(参考訳): 画像テキストマッチングは、視覚と言語をセマンティックな理解を通じて結びつけることを目指す、長年にわたる問題である。
大規模な生データを管理する能力のため、教師なしハッシュベースのアプローチが最近人気を集めている。
彼らは通常、自然な距離を使って意味的類似性構造を構築し、モデル最適化プロセスへのガイダンスを提供する。
しかし、類似性構造は意味分布の境界に偏りがあり、逐次最適化の際にエラーの蓄積を引き起こす可能性がある。
そこで本研究では,効率的な画像テキストマッチングを実現するために,分散ベース構造マイニング(DEMO)と呼ばれる新しいハッシュ手法を提案する。
統計的視点から、DEMOは複数の拡張ビューを用いて各画像を特徴付け、本質的な意味分布から抽出されたサンプルと見なされる。
そして、ロバストで正確な類似性構造を確保するために、非パラメトリック分布のばらつきを用いる。
さらに,ハミング空間における類似性構造を保存するだけでなく,自己管理的な方法で異なる方向からの検索分布間の整合性も促進する協調的整合性学習を導入する。
3つのベンチマーク画像テキストマッチングデータセットの広範な実験を通して、DeMOが多くの最先端手法と比較して優れた性能を発揮することを示す。
関連論文リスト
- Unsupervised Representation Learning by Balanced Self Attention Matching [2.3020018305241337]
本稿では,BAMと呼ばれる画像特徴を埋め込む自己教師型手法を提案する。
我々は,これらの分布とグローバルな均衡とエントロピー正規化バージョンに一致する損失を最小化することにより,豊かな表現と特徴の崩壊を回避する。
半教師付きベンチマークと移動学習ベンチマークの両方において,先行手法と競合する性能を示す。
論文 参考訳(メタデータ) (2024-08-04T12:52:44Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Unsupervised Hashing with Semantic Concept Mining [37.215530006668935]
本稿では,A を利用したセマンティック・マイニング・コンセプト "Un Hashing with Semantic Mining Concept" を提案する。
高品質な類似性マトリックス。
意味的類似度行列を案内情報として、修正された対照的な損失に基づく正規化項目による新規ハッシュ損失を提案し、ハッシュネットワークを最適化する。
論文 参考訳(メタデータ) (2022-09-23T08:25:24Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - Image Synthesis via Semantic Composition [74.68191130898805]
本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。
類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。
本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。
論文 参考訳(メタデータ) (2021-09-15T02:26:07Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with
Adversarial Discriminative Domain Regularization [21.904563910555368]
本稿では,画像とテキストのペア内における識別データドメインの集合を構築するための新しい学習フレームワークを提案する。
我々のアプローチは一般的に既存のメトリクス学習フレームワークの学習効率と性能を改善することができる。
論文 参考訳(メタデータ) (2020-10-23T01:48:37Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。