論文の概要: Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval
- arxiv url: http://arxiv.org/abs/2603.05781v1
- Date: Fri, 06 Mar 2026 00:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.789059
- Title: Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval
- Title(参考訳): Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval
- Authors: Donghoon Han, Eunhwan Park, Seunghyeon Seo,
- Abstract要約: BM25スコアリングは、Vision Transformerのパッチ機能上のスパースオートエンコーダ(SAE)からのスパースワードアクティベーションに適用される。
BM25-Vはスパース逆インデックス操作によりハイリコール候補を検索する。
ImageNet-1Kで一度訓練されたSAEは、微調整なしでゼロショットを7つのきめ細かいベンチマークに転送する。
- 参考スコア(独自算出の注目度): 7.060465882091838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense image retrieval is accurate but offers limited interpretability and attribution, and it can be compute-intensive at scale. We present \textbf{BM25-V}, which applies Okapi BM25 scoring to sparse visual-word activations from a Sparse Auto-Encoder (SAE) on Vision Transformer patch features. Across a large gallery, visual-word document frequencies are highly imbalanced and follow a Zipfian-like distribution, making BM25's inverse document frequency (IDF) weighting well suited for suppressing ubiquitous, low-information words and emphasizing rare, discriminative ones. BM25-V retrieves high-recall candidates via sparse inverted-index operations and serves as an efficient first-stage retriever for dense reranking. Across seven benchmarks, BM25-V achieves Recall@200 $\geq$ 0.993, enabling a two-stage pipeline that reranks only $K{=}200$ candidates per query and recovers near-dense accuracy within $0.2$\% on average. An SAE trained once on ImageNet-1K transfers zero-shot to seven fine-grained benchmarks without fine-tuning, and BM25-V retrieval decisions are attributable to specific visual words with quantified IDF contributions.
- Abstract(参考訳): 複雑な画像の検索は正確だが、解釈可能性や属性が限られており、大規模に計算集約できる。
視覚変換器のパッチ機能に対して,Sparse Auto-Encoder (SAE) の視単語アクティベーションをスパースするために,Okapi BM25スコアを適用した \textbf{BM25-V} を提案する。
大きなギャラリー全体では、ビジュアルワードの文書頻度は非常に不均衡であり、Zipfianのような分布に従っており、BM25の逆文書頻度(IDF)はユビキタスで低情報な単語を抑え、希少で差別的な単語を強調するのに適している。
BM25-Vは、スパース逆インデックス操作によりハイリコール候補を検索し、高密度リグレードのための効率的な第1ステージレトリバーとして機能する。
7つのベンチマークで、BM25-VはRecall@200 $\geq$ 0.993を達成した。
ImageNet-1Kで一度訓練されたSAEは、微調整なしでゼロショットを7つの細かいベンチマークに転送する。
関連論文リスト
- Soft Filtering: Guiding Zero-shot Composed Image Retrieval with Prescriptive and Proscriptive Constraints [3.5491867489872413]
Composed Image Retrieval (CIR) は、参照画像と修正テキストで表現されたユーザ意図に合わせたターゲット画像を見つけることを目的としている。
現在のCIRベンチマークでは、修正テキストの曖昧さを見越して、クエリ毎に1つの正しいターゲットを仮定している。
テキスト制約付きソフトフィルタ(SoFT)を提案する。
論文 参考訳(メタデータ) (2025-12-23T21:29:45Z) - VLM2GeoVec: Toward Universal Multimodal Embeddings for Remote Sensing [59.73939718087177]
シングルエンコーダの視覚言語モデルは、統合ベクトル空間にインターリーブされた入力を埋め込むために対照的に訓練された。
VLM2GeoVecは、領域レベルの空間推論とスケーラブルな検索を統合し、リモートセンシングにおける凝集性多モード解析を可能にする。
論文 参考訳(メタデータ) (2025-12-12T11:39:35Z) - Zero Shot Composed Image Retrieval [0.0]
合成画像検索(CIR)により、ユーザは、きめ細かいテキスト編集を施すことで、ターゲット画像を見つけることができる。
Zero-shot CIRは、イメージとテキストを別途トレーニング済みの視覚言語エンコーダで埋め込むもので、FashionIQベンチマークで20-25%のRecall@10にしか達しない。
我々は、視覚的特徴とテキスト的特徴を1つの埋め込みに融合する軽量Q-FormerでBLIP-2を微調整することで、これを改善した。
論文 参考訳(メタデータ) (2025-06-07T00:38:43Z) - Deep Retrieval at CheckThat! 2025: Identifying Scientific Papers from Implicit Social Media Mentions via Hybrid Retrieval and Re-Ranking [4.275139302875217]
CLEF CheckThat! 2025コンペティションのサブタスク4bに対するDeep Retrievalチームの方法論と結果を示す。
本稿では,語彙的精度,意味的一般化,文脈的再ランク付けを併用したハイブリッド検索パイプラインを提案する。
提案手法は, 開発セットで76.46%, 隠されたテストセットで66.43%の平均相反ランクを5 (MRR@5) 達成する。
論文 参考訳(メタデータ) (2025-05-29T08:55:39Z) - VisRet: Visualization Improves Knowledge-Intensive Text-to-Image Retrieval [56.12310817934239]
クロスモーダルな埋め込みは概念の袋として振る舞うが、ポーズや視点のような構造的な視覚的関係が不足している。
この制限を緩和するT2I検索のための新しいパラダイムであるVisualize-then-Retrieve (VisRet)を提案する。
VisRetは、T2I検索をテキスト間類似性マッチングとして再キャストする、モーダル間の類似性マッチングとベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2025-05-26T17:59:33Z) - TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。
テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Detector-Free Weakly Supervised Grounding by Separation [76.65699170882036]
Wakly Supervised phrase-Grounding (WSG)は、画像中の任意のテキストフレーズをローカライズするためにデータを使用するタスクを扱う。
本稿では,事前学習した検出器を使わずにWSGを解くための検出器フリーWSG(DF-WSG)を提案する。
我々は、以前のdf-wsg sotaと比較して最大8.5%の精度向上を示す。
論文 参考訳(メタデータ) (2021-04-20T08:27:31Z) - CoRT: Complementary Rankings from Transformers [8.37609145576126]
CoRTは、事前訓練された言語モデルからコンテキスト表現を活用する、単純なニューラルネットワークファーストステージランキングモデルである。
BM25を補うことで,CoRTは候補者のリコールを著しく向上させることを示した。
さらに,CoRTを用いた経路探索は驚くほど低レイテンシで実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-10-20T13:28:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。