論文の概要: MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient
image-text retrieval
- arxiv url: http://arxiv.org/abs/2310.19654v1
- Date: Mon, 30 Oct 2023 15:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 19:31:53.427970
- Title: MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient
image-text retrieval
- Title(参考訳): mcad:効率的な画像テキスト検索のためのマルチティーチャークロスモーダルアライメント蒸留
- Authors: Youbo Lei, Feifei He, Chen Chen, Yingbin Mo, Si Jia Li, Defeng Xie,
Haonan Lu
- Abstract要約: 単ストリームモデルと二重ストリームモデルの利点を統合するため, マルチティーチングラークロスモーダルアライメント蒸留(MCAD)手法を提案する。
両ストリームモデルのイメージとテキストの特徴に融合した単一ストリーム特徴を組み込むことで,教師の新たな特徴やロジットを定式化する。
画像テキスト検索作業におけるMCADの顕著な性能と高効率性を示す実験を行った。
- 参考スコア(独自算出の注目度): 7.59581608073964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of large-scale visual-language pretraining models and the
wide application of image-text retrieval in industry areas, reducing the model
size and streamlining their terminal-device deployment have become urgently
necessary. The mainstream model structures for image-text retrieval are
single-stream and dual-stream, both aiming to close the semantic gap between
visual and textual modalities. Dual-stream models excel at offline indexing and
fast inference, while single-stream models achieve more accurate cross-model
alignment by employing adequate feature fusion. We propose a multi-teacher
cross-modality alignment distillation (MCAD) technique to integrate the
advantages of single-stream and dual-stream models. By incorporating the fused
single-stream features into the image and text features of the dual-stream
model, we formulate new modified teacher features and logits. Then, we conduct
both logit and feature distillation to boost the capability of the student
dual-stream model, achieving high retrieval performance without increasing
inference complexity. Extensive experiments demonstrate the remarkable
performance and high efficiency of MCAD on image-text retrieval tasks.
Furthermore, we implement a mobile CLIP model on Snapdragon clips with only 93M
running memory and 30ms search latency, without apparent performance
degradation of the original large CLIP.
- Abstract(参考訳): 大規模視覚言語事前学習モデルの成功と,産業領域における画像テキスト検索の広範な適用により,モデルサイズを削減し,端末端末展開を合理化する必要性が高まっている。
画像テキスト検索の主流モデル構造はシングルストリームとデュアルストリームであり、どちらも視覚とテキスト間のセマンティックギャップを埋めることを目的としている。
デュアルストリームモデルはオフラインインデックス化と高速推論において優れ、一方シングルストリームモデルは適切な特徴融合を用いてより正確なクロスモデルアライメントを実現する。
単ストリームモデルと二重ストリームモデルの利点を統合するため, マルチティーチングラークロスモーダルアライメント蒸留(MCAD)手法を提案する。
両ストリームモデルのイメージとテキストの特徴に融合した単一ストリーム特徴を組み込むことで,教師の新たな特徴やロジットを定式化する。
次に,留学生のデュアルストリームモデルの能力を高めるために,ロジットと特徴蒸留の両方を行い,推論の複雑さを増すことなく高い検索性能を達成する。
画像テキスト検索タスクにおけるMCADの顕著な性能と高効率性を示す。
さらに,9300万のメモリと30ミリ秒の検索レイテンシを持つSnapdragonクリップ上で,モバイルCLIPモデルを実装した。
関連論文リスト
- Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [127.67444974452411]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - E2TIMT: Efficient and Effective Modal Adapter for Text Image Machine
Translation [40.62692548291319]
テキスト画像機械翻訳(TIMT)は、画像に埋め込まれたテキストを、あるソース言語から別のターゲット言語に翻訳することを目的としている。
既存の手法では、2段階のカスケードと1段階のエンドツーエンドアーキテクチャの両方が異なる問題に悩まされている。
本稿では,既存のOCRおよびMTデータセットからの知識をフル活用したエンドツーエンドTIMTモデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T04:25:52Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。
我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-26T19:18:27Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。