論文の概要: Transformer Reasoning Network for Image-Text Matching and Retrieval
- arxiv url: http://arxiv.org/abs/2004.09144v3
- Date: Mon, 25 Jan 2021 21:19:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 18:47:49.673304
- Title: Transformer Reasoning Network for Image-Text Matching and Retrieval
- Title(参考訳): 画像テキストマッチングと検索のためのトランスフォーマー推論ネットワーク
- Authors: Nicola Messina, Fabrizio Falchi, Andrea Esuli, Giuseppe Amato
- Abstract要約: マルチモーダルな大規模情報検索作業における画像テキストマッチングの問題点を考察する。
トランスフォーマー推論ネットワーク(TERN, Transformer Reasoning Network, TERN)は, 現代の関係認識型自己認識型トランスフォーマー(Transformer)のアーキテクチャである。
TERNは2つの異なるモダリティを別々に推論し、最終的な共通抽象概念空間を強制することができる。
- 参考スコア(独自算出の注目度): 14.238818604272751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text matching is an interesting and fascinating task in modern AI
research. Despite the evolution of deep-learning-based image and text
processing systems, multi-modal matching remains a challenging problem. In this
work, we consider the problem of accurate image-text matching for the task of
multi-modal large-scale information retrieval. State-of-the-art results in
image-text matching are achieved by inter-playing image and text features from
the two different processing pipelines, usually using mutual attention
mechanisms. However, this invalidates any chance to extract separate visual and
textual features needed for later indexing steps in large-scale retrieval
systems. In this regard, we introduce the Transformer Encoder Reasoning Network
(TERN), an architecture built upon one of the modern relationship-aware
self-attentive architectures, the Transformer Encoder (TE). This architecture
is able to separately reason on the two different modalities and to enforce a
final common abstract concept space by sharing the weights of the deeper
transformer layers. Thanks to this design, the implemented network is able to
produce compact and very rich visual and textual features available for the
successive indexing step. Experiments are conducted on the MS-COCO dataset, and
we evaluate the results using a discounted cumulative gain metric with
relevance computed exploiting caption similarities, in order to assess possibly
non-exact but relevant search results. We demonstrate that on this metric we
are able to achieve state-of-the-art results in the image retrieval task. Our
code is freely available at https://github.com/mesnico/TERN.
- Abstract(参考訳): 画像テキストマッチングは、現代のAI研究において興味深く魅力的なタスクである。
ディープラーニングベースの画像およびテキスト処理システムの進化にもかかわらず、マルチモーダルマッチングは難しい問題である。
本研究では,マルチモーダル大規模情報検索タスクにおける正確な画像テキストマッチングの問題を考える。
画像テキストマッチングの最先端の結果は、2つの異なる処理パイプラインから画像とテキストの機能を相互に再生することで達成される。
しかし、これは大規模な検索システムにおいて、後の索引付けステップに必要な視覚的特徴とテキスト的特徴を分離する機会を無効にする。
そこで,本稿では,トランスフォーマエンコーダ推論ネットワーク (tern) について紹介する。
このアーキテクチャは、2つの異なるモダリティを別々に推論し、より深いトランスフォーマー層の重みを共有することで最終的な共通の抽象概念空間を強制することができる。
この設計により、実装されたネットワークは、連続するインデックス化ステップで利用可能なコンパクトで非常にリッチな視覚的およびテキスト的特徴を生成できる。
実験は,ms-cocoデータセット上で実施し,字幕の類似性を活用し,非現実的だが関連のある検索結果を評価するために,値引きされた累積ゲイン指標を用いて結果を評価する。
この測定値を用いて,画像検索作業において最先端の結果が得られることを示す。
私たちのコードはhttps://github.com/mesnico/TERN.comで無料で利用可能です。
関連論文リスト
- Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Two-stream Hierarchical Similarity Reasoning for Image-text Matching [66.43071159630006]
文脈情報を自動的に抽出する階層的類似性推論モジュールを提案する。
従来のアプローチでは、シングルストリームの類似性アライメントを学習することしか検討されていなかった。
イメージ・ツー・テキスト・レベルの類似性計算とテキスト・ツー・テキスト・レベルの類似性計算に画像・テキストマッチングを分解する2ストリームアーキテクチャを開発した。
論文 参考訳(メタデータ) (2022-03-10T12:56:10Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - Towards Efficient Cross-Modal Visual Textual Retrieval using
Transformer-Encoder Deep Features [10.163477961551592]
クロスモーダル検索は、現代の検索エンジンにおいて重要な機能である。
本稿では,画像文検索に焦点をあてる。
我々は最近導入されたTERNアーキテクチャを画像文特徴抽出器として利用する。
論文 参考訳(メタデータ) (2021-06-01T10:11:46Z) - Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。
本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文 参考訳(メタデータ) (2021-03-10T13:08:09Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。