論文の概要: Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2308.04343v1
- Date: Tue, 8 Aug 2023 15:43:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 12:16:17.780948
- Title: Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval
- Title(参考訳): クロスモーダル検索のためのトランスフォーマによる2ストリームエンコーダの統合
- Authors: Yi Bin, Haoxuan Li, Yahui Xu, Xing Xu, Yang Yang, Heng Tao Shen
- Abstract要約: クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
- 参考スコア(独自算出の注目度): 68.61855682218298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing cross-modal retrieval methods employ two-stream encoders with
different architectures for images and texts, \textit{e.g.}, CNN for images and
RNN/Transformer for texts. Such discrepancy in architectures may induce
different semantic distribution spaces and limit the interactions between
images and texts, and further result in inferior alignment between images and
texts. To fill this research gap, inspired by recent advances of Transformers
in vision tasks, we propose to unify the encoder architectures with
Transformers for both modalities. Specifically, we design a cross-modal
retrieval framework purely based on two-stream Transformers, dubbed
\textbf{Hierarchical Alignment Transformers (HAT)}, which consists of an image
Transformer, a text Transformer, and a hierarchical alignment module. With such
identical architectures, the encoders could produce representations with more
similar characteristics for images and texts, and make the interactions and
alignments between them much easier. Besides, to leverage the rich semantics,
we devise a hierarchical alignment scheme to explore multi-level
correspondences of different layers between images and texts. To evaluate the
effectiveness of the proposed HAT, we conduct extensive experiments on two
benchmark datasets, MSCOCO and Flickr30K. Experimental results demonstrate that
HAT outperforms SOTA baselines by a large margin. Specifically, on two key
tasks, \textit{i.e.}, image-to-text and text-to-image retrieval, HAT achieves
7.6\% and 16.7\% relative score improvement of Recall@1 on MSCOCO, and 4.4\%
and 11.6\% on Flickr30k respectively. The code is available at
\url{https://github.com/LuminosityX/HAT}.
- Abstract(参考訳): 既存のクロスモーダル検索手法の多くは、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダ、画像のCNN、テキストのRNN/Transformerを使用している。
このようなアーキテクチャの相違は、異なる意味的分布空間を誘導し、画像とテキスト間の相互作用を制限し、さらに画像とテキストのアライメントが劣る可能性がある。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されたこの研究ギャップを埋めるため,両モードでトランスフォーマーとエンコーダアーキテクチャを統合することを提案する。
具体的には、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbf{Hierarchical Alignment Transformer (HAT)})を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
このような同一のアーキテクチャでは、エンコーダは画像やテキストに類似した特徴を持つ表現を生成し、それらの相互作用やアライメントをより容易にすることができる。
さらに、リッチセマンティクスを活用するために、画像とテキストの間の異なるレイヤのマルチレベル対応を探索するための階層的アライメントスキームを考案する。
提案するHATの有効性を評価するため,MSCOCOとFlickr30Kという2つのベンチマークデータセットについて広範な実験を行った。
実験の結果,HATはSOTAベースラインよりも大きなマージンで優れていた。
具体的には、textit{i.e.} と Image-to-text と text-to-image の2つの主要なタスクにおいて、HAT は MSCOCO での Recall@1 の相対スコア改善を 7.6 % と 16.7 %、Flickr30k では 4.4 % と 11.6 % を達成する。
コードは \url{https://github.com/luminosityx/hat} で入手できる。
関連論文リスト
- SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Pure Transformer with Integrated Experts for Scene Text Recognition [11.089203218000854]
シーンテキスト認識(STR:Scene text recognition)は、自然のシーンの収穫された画像のテキストを読む作業である。
近年、変換器アーキテクチャはSTRで広く採用されており、長期依存を捕捉する強力な能力を示している。
本研究は,ハイブリッドCNN変換器モデルより優れた単純なベースラインとして,トランスフォーマーのみのモデルを提案する。
論文 参考訳(メタデータ) (2022-11-09T15:26:59Z) - Two-stream Hierarchical Similarity Reasoning for Image-text Matching [66.43071159630006]
文脈情報を自動的に抽出する階層的類似性推論モジュールを提案する。
従来のアプローチでは、シングルストリームの類似性アライメントを学習することしか検討されていなかった。
イメージ・ツー・テキスト・レベルの類似性計算とテキスト・ツー・テキスト・レベルの類似性計算に画像・テキストマッチングを分解する2ストリームアーキテクチャを開発した。
論文 参考訳(メタデータ) (2022-03-10T12:56:10Z) - Embedding Arithmetic for Text-driven Image Transformation [48.7704684871689]
テキスト表現は、有名なアナロジーのような幾何学的規則性を示す。
最近の研究は、このセマンティックギャップを、画像とテキストをマルチモーダル空間に埋め込むことを目的としている。
SIMATデータセットを導入し,テキスト駆動画像変換の課題を評価する。
論文 参考訳(メタデータ) (2021-12-06T16:51:50Z) - L-Verse: Bidirectional Generation Between Image and Text [41.133824156046394]
L-Verseは、AugVAE(Feature-augmented Variational Autoencoder)とBiART(Bidirectional Auto-Regressive Transformer)で構成される新しいアーキテクチャである。
AugVAEは、ImageNet1Kバリデーションセットにおける最先端の再構築性能と、野生の未確認画像に対するロバスト性を示している。
L-Verseは、微調整や余分なオブジェクト検出フレームワークを使わずに、画像からテキスト、テキストから画像を生成するタスクに直接使用することができる。
論文 参考訳(メタデータ) (2021-11-22T11:48:26Z) - Unifying Multimodal Transformer for Bi-directional Image and Text
Generation [8.547205551848462]
本研究では,自然な双方向タスクである画像・テキスト・テキスト・画像世代の共同学習について検討する。
双方向タスクを共同で研究するために,単一のマルチモーダルモデルに基づく統合画像・テキスト生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-19T06:01:24Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Image Captioning through Image Transformer [29.91581534937757]
変形符号化変換器と暗黙復号変換器からなるtextbftextitimage transformer を導入する。
本モデルでは,MSCOCOのオフラインおよびオンラインテストベンチマークにおいて,最新の性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:30:57Z) - Transformer Reasoning Network for Image-Text Matching and Retrieval [14.238818604272751]
マルチモーダルな大規模情報検索作業における画像テキストマッチングの問題点を考察する。
トランスフォーマー推論ネットワーク(TERN, Transformer Reasoning Network, TERN)は, 現代の関係認識型自己認識型トランスフォーマー(Transformer)のアーキテクチャである。
TERNは2つの異なるモダリティを別々に推論し、最終的な共通抽象概念空間を強制することができる。
論文 参考訳(メタデータ) (2020-04-20T09:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。