論文の概要: Hierarchical Scheduling for Multi-Vector Image Retrieval
- arxiv url: http://arxiv.org/abs/2510.08976v1
- Date: Fri, 10 Oct 2025 03:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.096014
- Title: Hierarchical Scheduling for Multi-Vector Image Retrieval
- Title(参考訳): 多ベクトル画像検索のための階層的スケジューリング
- Authors: Maoliang Li, Ke Li, Yaoyang Liu, Jiayu Chen, Zihao Zheng, Yinjun Wu, Xiang Chen,
- Abstract要約: HiMIRは画像検索のための効率的なスケジューリングフレームワークである。
本稿では,画像オブジェクトのアライメントを高めるために,複数の中間粒度を用いた新しい階層的パラダイムを提案する。
実験により,HMIRは精度を向上するだけでなく,既存のMVRシステムに比べて最大3.5倍の計算量を削減できることがわかった。
- 参考スコア(独自算出の注目度): 17.023146933530484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To effectively leverage user-specific data, retrieval augmented generation (RAG) is employed in multimodal large language model (MLLM) applications. However, conventional retrieval approaches often suffer from limited retrieval accuracy. Recent advances in multi-vector retrieval (MVR) improve accuracy by decomposing queries and matching against segmented images. They still suffer from sub-optimal accuracy and efficiency, overlooking alignment between the query and varying image objects and redundant fine-grained image segments. In this work, we present an efficient scheduling framework for image retrieval - HiMIR. First, we introduce a novel hierarchical paradigm, employing multiple intermediate granularities for varying image objects to enhance alignment. Second, we minimize redundancy in retrieval by leveraging cross-hierarchy similarity consistency and hierarchy sparsity to minimize unnecessary matching computation. Furthermore, we configure parameters for each dataset automatically for practicality across diverse scenarios. Our empirical study shows that, HiMIR not only achieves substantial accuracy improvements but also reduces computation by up to 3.5 times over the existing MVR system.
- Abstract(参考訳): ユーザ固有のデータを効果的に活用するために、マルチモーダル大言語モデル(MLLM)アプリケーションに検索拡張生成(RAG)を用いる。
しかし,従来の検索手法では精度が低い場合が多い。
MVR(Multi-vector Search)の最近の進歩は、クエリの分解とセグメント画像とのマッチングによって精度を向上させる。
クエリとさまざまなイメージオブジェクトのアライメントと、冗長なきめ細かいイメージセグメントを見渡して、サブ最適精度と効率に悩まされている。
本研究では,画像検索のための効率的なスケジューリングフレームワークであるHiMIRを提案する。
まず,画像オブジェクトのアライメントを高めるために,複数の中間粒度を用いた新しい階層的パラダイムを提案する。
第2に、階層間の類似性一貫性と階層空間性を利用して、検索における冗長性を最小化し、不要なマッチング計算を最小化する。
さらに,さまざまなシナリオにまたがって,各データセットのパラメータを自動的に設定する。
実験により,HMIRは精度を向上するだけでなく,既存のMVRシステムに比べて最大3.5倍の計算量を削減できることがわかった。
関連論文リスト
- Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。
エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。
エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2026-01-27T00:46:08Z) - CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval [54.15776146365823]
Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。
CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
論文 参考訳(メタデータ) (2026-01-07T09:21:38Z) - Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。
本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:04Z) - Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval [13.296362770269452]
Mask-aware TIR (MaTIR) は、テキストクエリに基づいて関連する画像を見つけることを目的としている。
セグメンテーションを意識した画像検索のための第1段階と、再ランク付けとオブジェクトグラウンド化のための第2段階からなる2段階のフレームワークを提案する。
我々はCOCOとD$3$データセットに対するアプローチを評価し、従来の手法に比べて精度とセグメンテーション品質の両方が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-06-28T12:19:49Z) - QuARI: Query Adaptive Retrieval Improvement [10.896025071832055]
本稿では, 関心領域に関連する部分空間を強調することにより, 実例検索のために訓練したVLM機能の線形変換により, 性能の向上が期待できることを示す。
この変換は線形であるため、数百万の画像埋め込みに最小の計算コストで適用することができる。
以上の結果から,この手法は問合せ時に桁違いに多くの命令を必要とするものなど,最先端の代替手段を一貫して上回っていることが示唆された。
論文 参考訳(メタデータ) (2025-05-27T18:21:48Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - Marmot: Object-Level Self-Correction via Multi-Agent Reasoning [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を活用する、新しくて一般化可能なフレームワークである。
Marmotは、画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Data Roaming and Quality Assessment for Composed Image Retrieval [25.452015862927766]
Composed Image Retrieval (CoIR)は、画像とテキストのモダリティを組み合わせたクエリで、ユーザがより効果的にインテントを表現できるようにする。
我々は,既存のものより10倍大きい新しいCoIRデータセットであるLaSCoデータセットを紹介する。
また、新しいCoIRベースラインであるCASE(Cross-Attention driven Shift)も導入する。
論文 参考訳(メタデータ) (2023-03-16T16:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。