論文の概要: QuARI: Query Adaptive Retrieval Improvement
- arxiv url: http://arxiv.org/abs/2505.21647v1
- Date: Tue, 27 May 2025 18:21:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.226223
- Title: QuARI: Query Adaptive Retrieval Improvement
- Title(参考訳): QuARI: クエリ適応検索の改善
- Authors: Eric Xing, Abby Stylianou, Robert Pless, Nathan Jacobs,
- Abstract要約: 本稿では, 関心領域に関連する部分空間を強調することにより, 実例検索のために訓練したVLM機能の線形変換により, 性能の向上が期待できることを示す。
この変換は線形であるため、数百万の画像埋め込みに最小の計算コストで適用することができる。
以上の結果から,この手法は問合せ時に桁違いに多くの命令を必要とするものなど,最先端の代替手段を一貫して上回っていることが示唆された。
- 参考スコア(独自算出の注目度): 10.896025071832055
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Massive-scale pretraining has made vision-language models increasingly popular for image-to-image and text-to-image retrieval across a broad collection of domains. However, these models do not perform well when used for challenging retrieval tasks, such as instance retrieval in very large-scale image collections. Recent work has shown that linear transformations of VLM features trained for instance retrieval can improve performance by emphasizing subspaces that relate to the domain of interest. In this paper, we explore a more extreme version of this specialization by learning to map a given query to a query-specific feature space transformation. Because this transformation is linear, it can be applied with minimal computational cost to millions of image embeddings, making it effective for large-scale retrieval or re-ranking. Results show that this method consistently outperforms state-of-the-art alternatives, including those that require many orders of magnitude more computation at query time.
- Abstract(参考訳): 大規模事前学習は、画像から画像への検索やテキストから画像への検索において、幅広い領域にわたる視覚言語モデルに人気を増している。
しかし、これらのモデルは、大規模な画像コレクションのインスタンス検索など、難解な検索タスクに使用しても、うまく機能しない。
近年の研究では、VLMの特徴の線形変換は、関心領域に関連する部分空間を強調することで、性能を向上させることが示されている。
本稿では、クエリをクエリ固有の特徴空間変換にマッピングすることを学ぶことで、この特殊化のより極端なバージョンについて検討する。
この変換は線形であるため、数百万の画像埋め込みに最小限の計算コストで適用することができ、大規模な検索や再ランク付けに有効である。
結果から,この手法は問合せ時に多くの桁の計算処理を必要とするものなど,最先端の代替手法を一貫して上回っていることがわかった。
関連論文リスト
- Enhancing Multi-Image Question Answering via Submodular Subset Selection [16.66633426354087]
大規模マルチモーダルモデル (LMM) は、単一の画像を含む視覚言語タスクにおいて高い性能を達成しているが、複数の画像の集合を提示する際には困難である。
サブモジュールサブセット選択手法を用いて,MIRAGEモデルで導入された検索フレームワークの拡張を提案する。
論文 参考訳(メタデータ) (2025-05-15T17:41:52Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification [9.843214426749764]
本稿では,下流タスクの知識をキャッシュし再利用するための検索強化ビジュアルプロンプト学習(RePrompt)を提案する。
推測中、我々の拡張モデルは、より正確な予測を行うために、検索によってもたらされた類似のサンプルを参照することができる。
RePromptは、幅広いビジョンデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-06-04T03:06:37Z) - Granularity-aware Adaptation for Image Retrieval over Multiple Tasks [30.505620321478688]
Grappaは、強い事前訓練されたモデルから始まり、複数の検索タスクに同時に取り組むように適応するアプローチである。
我々は、全てのアダプタ集合を、融合層を学習することにより、全ての検索タスクに適した単一の統一モデルに再構成する。
6つの異種検索タスクからなるベンチマークの結果,教師なしのGrappaモデルでは,最先端の自己教師型学習モデルのゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2022-10-05T13:31:52Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z) - Instance-level Image Retrieval using Reranking Transformers [18.304597755595697]
インスタンスレベルの画像検索は、クエリイメージ内のオブジェクトに一致する画像の大規模なデータベースで検索するタスクです。
RRT(Reranking Transformers)を一般的なモデルとして提案し、ローカル機能とグローバル機能の両方を組み込んでマッチングイメージをランク付けします。
RRTは軽量であり、一組のトップマッチング結果の再ランク付けを単一のフォワードパスで行えるように容易に並列化できる。
論文 参考訳(メタデータ) (2021-03-22T23:58:38Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z) - CBIR using features derived by Deep Learning [0.0]
CBIR(Content Based Image Retrieval)システムでは、クエリ画像が与えられた大きなデータベースから同様の画像を検索する。
本稿では,大規模な画像分類問題に対して学習したディープラーニング畳み込みネットワークから,事前学習したネットワークモデルから派生した特徴を用いることを提案する。
論文 参考訳(メタデータ) (2020-02-13T21:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。