Fugu-MT 論文翻訳(概要): HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text Retrieval

論文の概要: HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text Retrieval

arxiv url: http://arxiv.org/abs/2205.12105v1
Date: Tue, 24 May 2022 14:32:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-25 20:19:23.258873
Title: HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text Retrieval
Title（参考訳）: HiVLP: 高速画像テキスト検索のための階層型ビジョンランゲージ事前トレーニング
Authors: Feilong Chen and Xiuyi Chen and Jiaxin Shi and Duzhen Zhang and Jianlong Chang and Qi Tian
Abstract要約: 本稿では,高速画像テキスト検索のためのtextbfHierarchical textbfVision-textbfLanguage textbfPre-Trainingを提案する。具体的には,粗いITRに対して異なる次元の表現を用いた新しい階層的検索対象を設計する。
参考スコア（独自算出の注目度）: 85.28292877465353
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the past few years, the emergence of vision-language pre-training (VLP) has brought cross-modal retrieval to a new era. However, due to the latency and computation demand, it is commonly challenging to apply VLP in a real-time online retrieval system. To alleviate the defect, this paper proposes a \textbf{Hi}erarchical \textbf{V}ision-\textbf{}Language \textbf{P}re-Training (\textbf{HiVLP}) for fast Image-Text Retrieval (ITR). Specifically, we design a novel hierarchical retrieval objective, which uses the representation of different dimensions for coarse-to-fine ITR, i.e., using low-dimensional representation for large-scale coarse retrieval and high-dimensional representation for small-scale fine retrieval. We evaluate our proposed HiVLP on two popular image-text retrieval benchmarks, i.e., Flickr30k and COCO. Extensive experiments demonstrate that our HiVLP not only has fast inference speed but also can be easily scaled to large-scale ITR scenarios. The detailed results show that HiVLP is $1,427$$\sim$$120,649\times$ faster than the fusion-based model UNITER and 2$\sim$5 faster than the fastest embedding-based model LightingDot in different candidate scenarios. It also achieves about +4.9 AR on COCO and +3.8 AR on Flickr30K than LightingDot and achieves comparable performance with the state-of-the-art (SOTA) fusion-based model METER.
Abstract（参考訳）: 近年,視覚言語事前学習(VLP)が出現し,新たな時代を迎えている。しかし、レイテンシと計算要求のため、リアルタイムオンライン検索システムにVLPを適用することは一般的に困難である。この欠陥を緩和するため,本稿では高速画像テキスト検索のための \textbf{hi}erarchical \textbf{v}ision-\textbf{}language \textbf{p}re-training (\textbf{hivlp})を提案する。具体的には, 粗大から細かなitrに対して異なる次元の表現, 粗大検索に低次元表現, 小型検索に高次元表現を用いる新しい階層的検索対象をデザインする。提案したHiVLPを,Flickr30kとCOCOの2つの画像テキスト検索ベンチマークで評価した。大規模な実験により、我々のHiVLPは高速な推論速度を持つだけでなく、大規模ITRシナリオにも容易に拡張可能であることが示された。詳細な結果は、HiVLPが融合ベースのモデルであるUNITERよりも1,427$\sim$120,649\times$が速く、異なる候補シナリオにおける最も高速な埋め込みベースのモデルであるLightingDotよりも2$\sim$5速いことを示している。また、COCO上の+4.9 ARと、Flickr30K上の+3.8 ARをLightingDotよりも達成し、最先端(SOTA)融合モデルMETERと同等のパフォーマンスを達成する。

関連論文リスト

VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。 1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。 VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文参考訳（メタデータ） (2025-05-28T17:59:08Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。 LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文参考訳（メタデータ） (2024-02-27T14:21:56Z)
CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。 CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文参考訳（メタデータ） (2024-02-23T11:47:16Z)
Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection [66.72992463712299]
Vision Transformers (ViT) は、大規模なVisionとLanguage Pre-trainingモデルで人気が高まっている。これまでの研究では、ViTsの有効性が実証されているが、長い視覚的シーケンスによって引き起こされる計算の非効率性に苦慮している。 TRIPSを導入し、視覚バックボーン内のテキスト誘導パッチ選択層を用いて視覚列を縮小する。実験の結果, TRIPSは40%の高速化を実現し, 下流タスクの競争力や優れた性能を維持していることがわかった。
論文参考訳（メタデータ） (2024-01-11T14:31:30Z)
PaLI-3 Vision Language Models: Smaller, Faster, Stronger [82.6453282241224]
PaLI-3は、より小さく、より速く、より強力な視覚言語モデル(VLM)であり、10倍大きい類似のモデルと好意的に比較できる。 SigLIPベースのPaLIは、標準画像分類ベンチマークでは若干性能が劣っているものの、様々なマルチモーダルベンチマークにおいて優れた性能を示している。
論文参考訳（メタデータ） (2023-10-13T15:45:19Z)
RLIPv2: Fast Scaling of Relational Language-Image Pre-training [53.21796397618875]
本稿では,大規模な擬似ラベル付きシーングラフデータに対する事前学習のリレーショナルスケーリングを可能にする高速収束モデルRLIPv2を提案する。非対称言語画像融合 (ALIF) は、より早く、より深く分岐したクロスモーダル融合と、スパシファイド言語による符号化を容易にする。 RLIPv2は、3つのベンチマークで、完全な微調整、少数ショット、ゼロショット設定で、最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2023-08-18T07:17:09Z)
ALADIN: Distilling Fine-grained Alignment Scores for Efficient Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文参考訳（メタデータ） (2022-07-29T16:01:48Z)
Leaner and Faster: Two-Stage Model Compression for Lightweight Text-Image Retrieval [18.088550230146247]
現在のテキストイメージアプローチ(例えば、CLIP)は、通常、デュアルエンコーダアーキテクチャのus-ing事前訓練された視覚言語表現を採用する。そこで本研究では,テキスト画像検索のために,大規模な事前学習型デュアルエンコーダを圧縮するための有効な2段階フレームワークを提案する。
論文参考訳（メタデータ） (2022-04-29T07:29:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。