論文の概要: Leaner and Faster: Two-Stage Model Compression for Lightweight
Text-Image Retrieval
- arxiv url: http://arxiv.org/abs/2204.13913v1
- Date: Fri, 29 Apr 2022 07:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 01:44:09.915492
- Title: Leaner and Faster: Two-Stage Model Compression for Lightweight
Text-Image Retrieval
- Title(参考訳): よりリーンで高速:軽量テキスト画像検索のための2段階モデル圧縮
- Authors: Siyu Ren, Kenny Q. Zhu
- Abstract要約: 現在のテキストイメージアプローチ(例えば、CLIP)は、通常、デュアルエンコーダアーキテクチャのus-ing事前訓練された視覚言語表現を採用する。
そこで本研究では,テキスト画像検索のために,大規模な事前学習型デュアルエンコーダを圧縮するための有効な2段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.088550230146247
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current text-image approaches (e.g., CLIP) typically adopt dual-encoder
architecture us- ing pre-trained vision-language representation. However, these
models still pose non-trivial memory requirements and substantial incre- mental
indexing time, which makes them less practical on mobile devices. In this
paper, we present an effective two-stage framework to compress large
pre-trained dual-encoder for lightweight text-image retrieval. The result- ing
model is smaller (39% of the original), faster (1.6x/2.9x for processing
image/text re- spectively), yet performs on par with or bet- ter than the
original full model on Flickr30K and MSCOCO benchmarks. We also open- source an
accompanying realistic mobile im- age search application.
- Abstract(参考訳): 現在のテキストイメージアプローチ(例えばCLIP)は、通常、デュアルエンコーダアーキテクチャを使用-事前訓練された視覚言語表現を採用する。
しかし、これらのモデルはいまだに自明なメモリ要件とかなりのインクリメンタルなインデクシング時間をもたらしており、モバイルデバイスでは実用性が低下している。
本稿では,軽量テキスト画像検索のための大規模事前学習型デュアルエンコーダを圧縮する効果的な2段階フレームワークを提案する。
結果のingモデルは、より小さく(元の39%)、より高速(イメージ/テキストを再参照する1.6x/2.9x)で、Flickr30KやMSCOCOベンチマークのオリジナルのフルモデルと同等または同等に動作する。
また、リアルなモバイル即年齢検索アプリケーションもオープンソース化しました。
関連論文リスト
- Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale
Image-Text Retrieval [71.01982683581572]
従来の高密度検索パラダイムは、デュアルストリームエンコーダを用いて画像やテキストを高密度表現に符号化することに依存している。
本稿では,語彙空間における疎表現を画像やテキストに対して学習する語彙重み付けパラダイムを提案する。
重要度を意識した辞書表現を学習する新しい事前学習フレームワークを提案する。
我々のフレームワークは、検索速度5.5221.3倍、インデックス記憶メモリ13.248.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-06T16:24:41Z) - Efficient Image Captioning for Edge Devices [8.724184244203892]
リソース制限されたデバイスのための軽量画像キャプタであるLightCapを提案する。
コア設計は、画像キャプションを効率的にするための最近のCLIPモデルに基づいている。
慎重に設計されたアーキテクチャでは、モデルのサイズを75%以上、FLOPを98%以上削減するパラメータが40万以上しか含まれていない。
論文 参考訳(メタデータ) (2022-12-18T01:56:33Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text
Retrieval [85.28292877465353]
本稿では,高速画像テキスト検索のためのtextbfHierarchical textbfVision-textbfLanguage textbfPre-Trainingを提案する。
具体的には,粗いITRに対して異なる次元の表現を用いた新しい階層的検索対象を設計する。
論文 参考訳(メタデータ) (2022-05-24T14:32:57Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。