論文の概要: Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2403.05261v1
- Date: Fri, 8 Mar 2024 12:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 19:58:28.577147
- Title: Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval
- Title(参考訳): 画像テキスト検索のためのクロスモーダル・ユニモーダルソフトラベルアライメント
- Authors: Hailang Huang, Zhijie Nie, Ziqiao Wang, Ziyu Shang
- Abstract要約: クロスモーダル・ユニモーダル・ソフトレーベルアライメント(CUSA)と呼ばれる新しい手法を提案する。
本手法は,一様事前学習モデルのパワーを活用し,画像テキスト検索モデルのためのソフトラベル監視信号を提供する。
また,画像テキスト検索モデルのユニモーダル検索性能を向上し,ユニバーサル検索を実現する。
- 参考スコア(独自算出の注目度): 8.964406623762166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current image-text retrieval methods have demonstrated impressive performance
in recent years. However, they still face two problems: the inter-modal
matching missing problem and the intra-modal semantic loss problem. These
problems can significantly affect the accuracy of image-text retrieval. To
address these challenges, we propose a novel method called Cross-modal and
Uni-modal Soft-label Alignment (CUSA). Our method leverages the power of
uni-modal pre-trained models to provide soft-label supervision signals for the
image-text retrieval model. Additionally, we introduce two alignment
techniques, Cross-modal Soft-label Alignment (CSA) and Uni-modal Soft-label
Alignment (USA), to overcome false negatives and enhance similarity recognition
between uni-modal samples. Our method is designed to be plug-and-play, meaning
it can be easily applied to existing image-text retrieval models without
changing their original architectures. Extensive experiments on various
image-text retrieval models and datasets, we demonstrate that our method can
consistently improve the performance of image-text retrieval and achieve new
state-of-the-art results. Furthermore, our method can also boost the uni-modal
retrieval performance of image-text retrieval models, enabling it to achieve
universal retrieval. The code and supplementary files can be found at
https://github.com/lerogo/aaai24_itr_cusa.
- Abstract(参考訳): 最近の画像テキスト検索手法は近年、印象的な性能を示している。
しかし、それらはいまだに2つの問題に直面している: モーダル間マッチングの欠落問題とモーダル間セマンティック損失問題である。
これらの問題は画像テキスト検索の精度に大きな影響を与える可能性がある。
そこで本研究では, クロスモーダルとユニモーダルソフトラベルアライメント(cusa)と呼ばれる新しい手法を提案する。
本手法は,一様事前学習モデルのパワーを活用し,画像テキスト検索モデルのためのソフトラベル監視信号を提供する。
さらに,クロスモーダルソフトラベルアライメント (csa) とユニモーダルソフトラベルアライメント (usa) という2つのアライメント手法を導入し,偽陰性を克服し,ユニモーダルサンプル間の類似性認識を強化する。
本手法はプラグイン・アンド・プレイとして設計されており,既存の画像テキスト検索モデルに適用することができる。
各種画像テキスト検索モデルとデータセットの大規模な実験により,本手法は画像テキスト検索の性能を一貫して改善し,新たな最先端結果が得られることを示した。
さらに,画像テキスト検索モデルのユニモーダル検索性能も向上させ,汎用検索を可能にした。
コードと追加ファイルはhttps://github.com/lerogo/aaai24_itr_cusaで見ることができる。
関連論文リスト
- Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Intra-Modal Constraint Loss For Image-Text Retrieval [10.496611712280972]
クロスモーダル検索はコンピュータビジョンと自然言語処理領域に大きな注目を集めている。
畳み込みと繰り返しのニューラルネットワークの開発により、画像-テキストモダリティ間の検索のボトルネックは、もはや画像とテキストの特徴の抽出ではなく、埋め込み空間における効率的な損失関数学習である。
本稿では,画像とテキストの結合埋め込みをモダル内制約損失関数を用いて学習し,同じ均一なモードから負対の違反を低減する方法を提案する。
論文 参考訳(メタデータ) (2022-07-11T17:21:25Z) - Two-stream Hierarchical Similarity Reasoning for Image-text Matching [66.43071159630006]
文脈情報を自動的に抽出する階層的類似性推論モジュールを提案する。
従来のアプローチでは、シングルストリームの類似性アライメントを学習することしか検討されていなかった。
イメージ・ツー・テキスト・レベルの類似性計算とテキスト・ツー・テキスト・レベルの類似性計算に画像・テキストマッチングを分解する2ストリームアーキテクチャを開発した。
論文 参考訳(メタデータ) (2022-03-10T12:56:10Z) - Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。
本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文 参考訳(メタデータ) (2021-03-10T13:08:09Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。