論文の概要: Few Shots Text to Image Retrieval: New Benchmarking Dataset and Optimization Methods
- arxiv url: http://arxiv.org/abs/2603.25891v1
- Date: Thu, 26 Mar 2026 20:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.266183
- Title: Few Shots Text to Image Retrieval: New Benchmarking Dataset and Optimization Methods
- Title(参考訳): テキストから画像検索:新しいベンチマークデータセットと最適化手法
- Authors: Ofer Idan, Vladi Vexler, Gil Lederman, Dima Sivov, Aviad Cohen Zada, Shir Niego Komforti,
- Abstract要約: 本稿では、Few-Shot Text-to-Image Retrieval(FSIR)タスクとその付随するベンチマークデータセットFSIR-BDを紹介する。
FSIR-BDには38,353のイメージと303のクエリがあり、82%がテストコーパスで構成されている。
単発または少数発の参照例を利用した2つの新しい検索最適化手法を提案する。
- 参考スコア(独自算出の注目度): 0.31226727161298434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained vision-language models (VLMs) excel in multimodal tasks, commonly encoding images as embedding vectors for storage in databases and retrieval via approximate nearest neighbor search (ANNS). However, these models struggle with compositional queries and out-of-distribution (OOD) image-text pairs. Inspired by human cognition's ability to learn from minimal examples, we address this performance gap through few-shot learning approaches specifically designed for image retrieval. We introduce the Few-Shot Text-to-Image Retrieval (FSIR) task and its accompanying benchmark dataset, FSIR-BD - the first to explicitly target image retrieval by text accompanied by reference examples, focusing on the challenging compositional and OOD queries. The compositional part is divided to urban scenes and nature species, both in specific situations or with distinctive features. FSIR-BD contains 38,353 images and 303 queries, with 82% comprising the test corpus (averaging per query 37 positives, ground truth matches, and significant number of hard negatives) and 18% forming the few-shot reference corpus (FSR) of exemplar positive and hard negative images. Additionally, we propose two novel retrieval optimization methods leveraging single shot or few shot reference examples in the FSR to improve performance. Both methods are compatible with any pre-trained image encoder, making them applicable to existing large-scale environments. Our experiments demonstrate that: (1) FSIR-BD provides a challenging benchmark for image retrieval; and (2) our optimization methods outperform existing baselines as measured by mean Average Precision (mAP). Further research into FSIR optimization methods will help narrow the gap between machine and human-level understanding, particularly for compositional reasoning from limited examples.
- Abstract(参考訳): 事前学習された視覚言語モデル (VLM) はマルチモーダルタスクにおいて優れており、一般的にはデータベースに格納するための埋め込みベクトルとしてイメージをエンコードし、近接する近傍探索 (ANNS) を介して検索する。
しかし、これらのモデルは構成的クエリとアウト・オブ・ディストリビューション(OOD)イメージテキストペアと競合する。
最小限の例から学習する人間の認知能力に触発されて,画像検索に特化して設計された数発の学習アプローチを通じて,このパフォーマンスギャップに対処する。
本稿では、Few-Shot Text-to-Image Retrieval(FSIR)タスクとその付随するベンチマークデータセットFSIR-BDについて紹介する。
構成部は都市景観と自然種に分けられ、特定の状況や特徴的な特徴を持つ。
FSIR-BDは38,353のイメージと303のクエリを含み、82%がテストコーパス(クエリ毎37の陽性、接地真理一致、およびかなりの数のハードネガティブ)、8%が例外参照コーパス(FSR)を形成している。
さらに,FSRにおける単発または少数発の参照例を利用した2つの新しい検索最適化手法を提案し,性能向上を図る。
どちらの方法も事前訓練されたイメージエンコーダと互換性があり、既存の大規模環境に適用できる。
実験の結果,(1)FSIR-BDは画像検索に困難なベンチマークを提供し,(2)平均精度(mAP)で測定された既存のベースラインよりも優れた最適化手法を提供することがわかった。
FSIR最適化手法のさらなる研究は、機械と人間レベルの理解のギャップを狭めるのに役立つ。
関連論文リスト
- Instance-Level Composed Image Retrieval [34.04479584450632]
i-CIRは、インスタンスレベルのクラス定義に焦点を当てた、新しい評価データセットである。
その設計とキュレーションプロセスは、将来の研究を促進するためにデータセットをコンパクトに保つ。
事前学習された視覚・言語モデル(VLM)を,BASICと呼ばれる学習自由なアプローチで活用する。
論文 参考訳(メタデータ) (2025-10-29T10:57:59Z) - Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval [52.709090256954276]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、合成クエリによってターゲット画像を取得することを目的としている。
本稿では,ZS-CIRにMRA(Multimodal Reasoning Agent)を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:17:50Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。
本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。
提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-18T10:20:28Z) - Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。
そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。