論文の概要: Embedding the Teacher: Distilling vLLM Preferences for Scalable Image Retrieval
- arxiv url: http://arxiv.org/abs/2510.12014v1
- Date: Mon, 13 Oct 2025 23:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.116929
- Title: Embedding the Teacher: Distilling vLLM Preferences for Scalable Image Retrieval
- Title(参考訳): 教師の埋め込み: スケーラブルなイメージ検索のためのvLLM推奨の蒸留
- Authors: Eric He, Akash Gupta, Adian Liusie, Vatsal Raina, Piotr Molenda, Shirom Chabra, Vyas Raina,
- Abstract要約: 本稿では,強力な vLLM の選好ランクを埋め込み型システムに抽出するフレームワークを提案する。
ペルソナ主導の製品レコメンデーションタスクの実験では,本手法が既存の埋め込みベースラインを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 11.239689587816756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text--image retrieval is necessary for applications such as product recommendation. Embedding-based approaches like CLIP enable efficient large-scale retrieval via vector similarity search, but they are primarily trained on literal caption-like text--image pairs and often fail to capture abstract or persona-driven attributes common in product recommendation applications (e.g., ``a gift for a mother who loves gardening''). In contrast, state-of-the-art vision--language models (vLLMs) can align text with images in a flexible manner, but their limited context window prevents them from directly handling retrieval over large catalogs. We propose a framework that distills the preference rankings of a powerful vLLM into an embedding-based system, transferring its nuanced alignment abilities while maintaining the inference-time scalability of an embedding-based approach. Experiments on persona-driven product recommendation tasks demonstrate that our method significantly outperforms existing embedding-based baselines, providing an efficient solution for personalized text--image retrieval.
- Abstract(参考訳): 製品レコメンデーションなどのアプリケーションには,テキストイメージ検索が必要である。
CLIPのような埋め込みベースのアプローチは、ベクトル類似検索による効率的な大規模検索を可能にするが、主にリテラル的な字幕的なテキスト-イメージペアで訓練されており、製品レコメンデーションアプリケーションで一般的な抽象的またはペルソナ駆動の属性(例: '‘a gift for a mother who love gardening'')をキャプチャできないことが多い。
対照的に、最先端のビジョン言語モデル(vLLM)は、テキストと画像を柔軟に整列させることができるが、コンテキストウィンドウの制限により、大規模なカタログ上での検索を直接処理できない。
本稿では,強力な vLLM の選好ランク付けを埋め込みベースシステムに蒸留し,その微妙なアライメント能力を,埋め込みベースアプローチの推論時スケーラビリティを維持しながら伝達するフレームワークを提案する。
パーソナライズされた製品レコメンデーションタスクの実験では,本手法が既存の埋め込みベースラインを著しく上回り,パーソナライズされたテキスト画像検索のための効率的なソリューションを提供することを示した。
関連論文リスト
- CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。
我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-02T09:17:57Z) - Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions [64.89284104414865]
オープンエンド命令をサポートする自己教師付き画像検索モデルであるMagicLensを紹介する。
MagicLensは、重要な新しい洞察に基づいて構築されている。同じWebページで自然に起こるイメージペアは、幅広い暗黙の関係を含んでいる。
MagicLensは、さまざまな画像検索タスクの8つのベンチマークで、これまでの最高値に匹敵する結果を得る。
論文 参考訳(メタデータ) (2024-03-28T17:59:20Z) - You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Variational Distribution Learning for Unsupervised Text-to-Image
Generation [42.3246826401366]
本稿では,訓練中に画像のテキストキャプションが利用できない場合に,ディープニューラルネットワークに基づくテキスト画像生成アルゴリズムを提案する。
画像と対応するテキストの埋め込みを結合空間に適切に整列できる事前訓練されたCLIPモデルを用いる。
画像テキストCLIP埋め込みのペア上での条件付きデータログを最大化することにより、テキスト・画像生成モデルを最適化する。
論文 参考訳(メタデータ) (2023-03-28T16:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。