論文の概要: ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval
- arxiv url: http://arxiv.org/abs/2207.14757v1
- Date: Fri, 29 Jul 2022 16:01:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 12:14:49.179879
- Title: ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval
- Title(参考訳): aladin: 効率的な画像テキストマッチングと検索のための細粒度アライメントスコアの蒸留
- Authors: Nicola Messina, Matteo Stefanini, Marcella Cornia, Lorenzo Baraldi,
Fabrizio Falchi, Giuseppe Amato, Rita Cucchiara
- Abstract要約: クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
- 参考スコア(独自算出の注目度): 51.588385824875886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text matching is gaining a leading role among tasks involving the joint
understanding of vision and language. In literature, this task is often used as
a pre-training objective to forge architectures able to jointly deal with
images and texts. Nonetheless, it has a direct downstream application:
cross-modal retrieval, which consists in finding images related to a given
query text or vice-versa. Solving this task is of critical importance in
cross-modal search engines. Many recent methods proposed effective solutions to
the image-text matching problem, mostly using recent large vision-language (VL)
Transformer networks. However, these models are often computationally
expensive, especially at inference time. This prevents their adoption in
large-scale cross-modal retrieval scenarios, where results should be provided
to the user almost instantaneously. In this paper, we propose to fill in the
gap between effectiveness and efficiency by proposing an ALign And DIstill
Network (ALADIN). ALADIN first produces high-effective scores by aligning at
fine-grained level images and texts. Then, it learns a shared embedding space -
where an efficient kNN search can be performed - by distilling the relevance
scores obtained from the fine-grained alignments. We obtained remarkable
results on MS-COCO, showing that our method can compete with state-of-the-art
VL Transformers while being almost 90 times faster. The code for reproducing
our results is available at https://github.com/mesnico/ALADIN.
- Abstract(参考訳): 視覚と言語を協調的に理解するタスクにおいて,画像テキストマッチングが主要な役割を担っている。
文献では、このタスクは、画像やテキストを共同で扱えるアーキテクチャを鍛えるための事前訓練目的としてしばしば使用される。
それにもかかわらず、クロスモーダル検索(cross-modal search)は、あるクエリテキストや逆変換に関連する画像を見つけることで構成される。
この課題を解決することは、クロスモーダル検索エンジンにおいて重要である。
近年、多くの手法が画像テキストマッチング問題に有効な解決策を提案しており、主に近年のvlトランスフォーマーネットワークを用いている。
しかし、これらのモデルはしばしば計算コストがかかる。
これにより、大規模なクロスモーダル検索シナリオへの採用が妨げられ、結果がほぼ瞬時にユーザに提供されるようになる。
本稿では,ALADIN(ALign And Distill Network)を提案することにより,有効性と効率のギャップを埋めることを提案する。
ALADINはまず、きめ細かい画像とテキストを調整して高効率のスコアを生成する。
そして、細粒度アライメントから得られた関連スコアを蒸留することにより、効率的なkNN探索が可能な共有埋め込み空間を学習する。
我々はMS-COCOにおいて,最先端のVL変換器とほぼ90倍の速度で競合できることを示す顕著な結果を得た。
結果の再現コードはhttps://github.com/mesnico/ALADIN.comで公開されている。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。
本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:36:42Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Towards Efficient Cross-Modal Visual Textual Retrieval using
Transformer-Encoder Deep Features [10.163477961551592]
クロスモーダル検索は、現代の検索エンジンにおいて重要な機能である。
本稿では,画像文検索に焦点をあてる。
我々は最近導入されたTERNアーキテクチャを画像文特徴抽出器として利用する。
論文 参考訳(メタデータ) (2021-06-01T10:11:46Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z) - Transformer Reasoning Network for Image-Text Matching and Retrieval [14.238818604272751]
マルチモーダルな大規模情報検索作業における画像テキストマッチングの問題点を考察する。
トランスフォーマー推論ネットワーク(TERN, Transformer Reasoning Network, TERN)は, 現代の関係認識型自己認識型トランスフォーマー(Transformer)のアーキテクチャである。
TERNは2つの異なるモダリティを別々に推論し、最終的な共通抽象概念空間を強制することができる。
論文 参考訳(メタデータ) (2020-04-20T09:09:01Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。