論文の概要: Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking
- arxiv url: http://arxiv.org/abs/2510.06820v1
- Date: Wed, 08 Oct 2025 09:46:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.396482
- Title: Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking
- Title(参考訳): 大規模ビジョンランゲージリグレードのための効率的な識別型ジョイントエンコーダ
- Authors: Mitchell Keren Taraday, Shahaf Wagner, Chaim Baskin,
- Abstract要約: マルチモーダル検索はまだCLIPのような埋め込みベースのモデルに頼っている。
共同エンコーダのリランカが標準であるテキスト検索とは異なり、同等の視覚言語リランカはほとんど欠落している。
本稿では,視覚トークンをオフラインでプリコンプリートし,軽量アテンションベースのアダプタで圧縮する,効率的な識別関節であるEDJEを紹介する。
- 参考スコア(独自算出の注目度): 8.189266513060621
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal retrieval still leans on embedding-based models like CLIP for fast vector search over pre-computed image embeddings. Yet, unlike text retrieval, where joint-encoder rerankers are standard, comparable vision--language rerankers are largely absent. We find that seminal joint encoders such as BLIP are severely bottlenecked by an expensive visual feature-extraction stage, preventing practical deployment at scale. Motivated by this bottleneck, we introduce EDJE, an Efficient Discriminative Joint Encoder that precomputes vision tokens offline and compresses them via a lightweight attention-based adapter, so online inference runs only a compact joint encoder over a small set of visual tokens plus the text. EDJE preserves strong retrieval performance while drastically reducing storage and online compute, enabling high-throughput inference. Specifically, EDJE processes 50k image--text pairs/second while requiring 49kB of disk storage per image, matching prior art on Flickr (zero-shot) and COCO (fine-tuned) retrieval. The implementation and checkpoints will be made publicly available shortly.
- Abstract(参考訳): マルチモーダル検索は、プリ計算済みのイメージ埋め込みよりも高速なベクトル探索を行うCLIPのような埋め込みベースのモデルに依存している。
しかし、共同エンコーダのリランカが標準であるテキスト検索とは異なり、同等の視覚言語リランカはほとんど欠落している。
BLIPのようなセミナルジョイントエンコーダは、高価な視覚的特徴抽出段階によって著しくボトルネックを受けており、大規模に展開するのを防ぐことができる。
このボトルネックに触発されたEDJEは、視覚トークンをオフラインでプリコンプリートし、軽量なアテンションベースのアダプタで圧縮する、効率的な識別型共同エンコーダであり、オンライン推論は、小さな視覚トークンとテキストのセット上でのみコンパクトなジョイントエンコーダを実行する。
EDJEは、ストレージとオンライン計算を大幅に削減しつつ、強力な検索性能を保持し、高いスループットの推論を可能にする。
具体的には、EDJEは50kイメージペア/秒を処理し、画像毎に49kBのディスクストレージを必要とし、Flickr(ゼロショット)とCOCO(微調整)検索の先行技術にマッチする。
実装とチェックポイントはまもなく公開される予定だ。
関連論文リスト
- PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation [5.553946791700077]
平面走査を垂直・多解像度コンテキストアクセスに置き換える階層的自己回帰モデルを提案する。
実験の結果,PHOTONはスループット品質のトレードオフに関して,競合するTransformerベースの言語モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-12-22T19:26:59Z) - CORE: Compact Object-centric REpresentations as a New Paradigm for Token Merging in LVLMs [29.08277140543501]
視覚的トークン圧縮のための新しいパラダイムであるCORE(Compact Object-centric Representation)を紹介する。
COREは効率的なセグメンテーションデコーダを利用してオブジェクトマスクを生成する。
実験により、COREは固定レート圧縮のための6つの信頼性ベンチマークに対して新しい最先端のベンチマークを確立するだけでなく、適応レート設定において劇的な効率向上を達成することが示された。
論文 参考訳(メタデータ) (2025-11-18T03:02:23Z) - Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。
マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。
マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文 参考訳(メタデータ) (2025-07-28T13:50:53Z) - End-to-End Semantic Preservation in Text-Aware Image Compression Systems [42.76781276416154]
光文字認識(OCR)のためのテキスト固有の特徴を保持するエンドツーエンド圧縮フレームワークを提案する。
実験では、低速度でのテキスト抽出精度が大幅に向上し、圧縮されていない画像ではOCRよりも優れていた。
我々はこの研究を汎用エンコーダに拡張し、極端圧縮下で隠れセマンティクスを保存する能力を探究する。
論文 参考訳(メタデータ) (2025-03-25T09:36:13Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - Stable Diffusion is a Natural Cross-Modal Decoder for Layered AI-generated Image Compression [7.643300240138419]
我々は、複数の人間-理解可能なモダリティを組み込んだスケーラブルなクロスモーダル圧縮フレームワークを導入する。
我々のフレームワークは,高レベルなセマンティック情報を提供するセマンティック層からなる層状ビットストリームに画像をエンコードする。
提案手法は意味的および視覚的詳細の両方を巧みに復元し,極端に低速度でベースラインアプローチと競合する。
論文 参考訳(メタデータ) (2024-12-17T15:01:35Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Expediting Contrastive Language-Image Pretraining via Self-distilled
Encoders [10.649402840032138]
ECLIPSEは、オンライン画像エンコーダとモーメント画像エンコーダの間で共有テキストエンコーダを利用する独自の蒸留アーキテクチャを備えている。
ECLIPSEは、統合されたテキスト埋め込み空間に基づいて、オンライン画像エンコーダを高速化することにより、運動量画像エンコーダの計算コストを補う。
論文 参考訳(メタデータ) (2023-12-19T23:11:06Z) - LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale
Image-Text Retrieval [71.01982683581572]
従来の高密度検索パラダイムは、デュアルストリームエンコーダを用いて画像やテキストを高密度表現に符号化することに依存している。
本稿では,語彙空間における疎表現を画像やテキストに対して学習する語彙重み付けパラダイムを提案する。
重要度を意識した辞書表現を学習する新しい事前学習フレームワークを提案する。
我々のフレームワークは、検索速度5.5221.3倍、インデックス記憶メモリ13.248.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-06T16:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。