論文の概要: Hierarchical Scheduling for Multi-Vector Image Retrieval
- arxiv url: http://arxiv.org/abs/2510.08976v1
- Date: Fri, 10 Oct 2025 03:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.096014
- Title: Hierarchical Scheduling for Multi-Vector Image Retrieval
- Title(参考訳): 多ベクトル画像検索のための階層的スケジューリング
- Authors: Maoliang Li, Ke Li, Yaoyang Liu, Jiayu Chen, Zihao Zheng, Yinjun Wu, Xiang Chen,
- Abstract要約: HiMIRは画像検索のための効率的なスケジューリングフレームワークである。
本稿では,画像オブジェクトのアライメントを高めるために,複数の中間粒度を用いた新しい階層的パラダイムを提案する。
実験により,HMIRは精度を向上するだけでなく,既存のMVRシステムに比べて最大3.5倍の計算量を削減できることがわかった。
- 参考スコア(独自算出の注目度): 17.023146933530484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To effectively leverage user-specific data, retrieval augmented generation (RAG) is employed in multimodal large language model (MLLM) applications. However, conventional retrieval approaches often suffer from limited retrieval accuracy. Recent advances in multi-vector retrieval (MVR) improve accuracy by decomposing queries and matching against segmented images. They still suffer from sub-optimal accuracy and efficiency, overlooking alignment between the query and varying image objects and redundant fine-grained image segments. In this work, we present an efficient scheduling framework for image retrieval - HiMIR. First, we introduce a novel hierarchical paradigm, employing multiple intermediate granularities for varying image objects to enhance alignment. Second, we minimize redundancy in retrieval by leveraging cross-hierarchy similarity consistency and hierarchy sparsity to minimize unnecessary matching computation. Furthermore, we configure parameters for each dataset automatically for practicality across diverse scenarios. Our empirical study shows that, HiMIR not only achieves substantial accuracy improvements but also reduces computation by up to 3.5 times over the existing MVR system.
- Abstract(参考訳): ユーザ固有のデータを効果的に活用するために、マルチモーダル大言語モデル(MLLM)アプリケーションに検索拡張生成(RAG)を用いる。
しかし,従来の検索手法では精度が低い場合が多い。
MVR(Multi-vector Search)の最近の進歩は、クエリの分解とセグメント画像とのマッチングによって精度を向上させる。
クエリとさまざまなイメージオブジェクトのアライメントと、冗長なきめ細かいイメージセグメントを見渡して、サブ最適精度と効率に悩まされている。
本研究では,画像検索のための効率的なスケジューリングフレームワークであるHiMIRを提案する。
まず,画像オブジェクトのアライメントを高めるために,複数の中間粒度を用いた新しい階層的パラダイムを提案する。
第2に、階層間の類似性一貫性と階層空間性を利用して、検索における冗長性を最小化し、不要なマッチング計算を最小化する。
さらに,さまざまなシナリオにまたがって,各データセットのパラメータを自動的に設定する。
実験により,HMIRは精度を向上するだけでなく,既存のMVRシステムに比べて最大3.5倍の計算量を削減できることがわかった。
関連論文リスト
- Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。
本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:04Z) - QuARI: Query Adaptive Retrieval Improvement [10.896025071832055]
本稿では, 関心領域に関連する部分空間を強調することにより, 実例検索のために訓練したVLM機能の線形変換により, 性能の向上が期待できることを示す。
この変換は線形であるため、数百万の画像埋め込みに最小の計算コストで適用することができる。
以上の結果から,この手法は問合せ時に桁違いに多くの命令を必要とするものなど,最先端の代替手段を一貫して上回っていることが示唆された。
論文 参考訳(メタデータ) (2025-05-27T18:21:48Z) - Marmot: Object-Level Self-Correction via Multi-Agent Reasoning [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を活用する、新しくて一般化可能なフレームワークである。
Marmotは、画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Data Roaming and Quality Assessment for Composed Image Retrieval [25.452015862927766]
Composed Image Retrieval (CoIR)は、画像とテキストのモダリティを組み合わせたクエリで、ユーザがより効果的にインテントを表現できるようにする。
我々は,既存のものより10倍大きい新しいCoIRデータセットであるLaSCoデータセットを紹介する。
また、新しいCoIRベースラインであるCASE(Cross-Attention driven Shift)も導入する。
論文 参考訳(メタデータ) (2023-03-16T16:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。