論文の概要: UNION: A Lightweight Target Representation for Efficient Zero-Shot Image-Guided Retrieval with Optional Textual Queries
- arxiv url: http://arxiv.org/abs/2511.22253v1
- Date: Thu, 27 Nov 2025 09:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.481053
- Title: UNION: A Lightweight Target Representation for Efficient Zero-Shot Image-Guided Retrieval with Optional Textual Queries
- Title(参考訳): UNION: 任意のテキストクエリによる効率的なゼロショット画像ガイド検索のための軽量ターゲット表現
- Authors: Hoang-Bao Le, Allie Tran, Binh T. Nguyen, Liting Zhou, Cathal Gurrin,
- Abstract要約: Image-Guided Retrieval with Optional Text (IGROT) は、クエリがアンカーイメージで構成され、テキストに付随するか否かに関わらず、意味論的に関連付けられたターゲットイメージを検索する一般的な検索設定である。
本研究では,低データ管理下でIGROTに対処するため,Null-textプロンプトでイメージを融合させる軽量で汎用的なターゲット表現であるUNIONを導入する。
- 参考スコア(独自算出の注目度): 3.6723140587841656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-Guided Retrieval with Optional Text (IGROT) is a general retrieval setting where a query consists of an anchor image, with or without accompanying text, aiming to retrieve semantically relevant target images. This formulation unifies two major tasks: Composed Image Retrieval (CIR) and Sketch-Based Image Retrieval (SBIR). In this work, we address IGROT under low-data supervision by introducing UNION, a lightweight and generalisable target representation that fuses the image embedding with a null-text prompt. Unlike traditional approaches that rely on fixed target features, UNION enhances semantic alignment with multimodal queries while requiring no architectural modifications to pretrained vision-language models. With only 5,000 training samples - from LlavaSCo for CIR and Training-Sketchy for SBIR - our method achieves competitive results across benchmarks, including CIRCO mAP@50 of 38.5 and Sketchy mAP@200 of 82.7, surpassing many heavily supervised baselines. This demonstrates the robustness and efficiency of UNION in bridging vision and language across diverse query types.
- Abstract(参考訳): Image-Guided Retrieval with Optional Text (IGROT) は、クエリがアンカーイメージで構成され、テキストに付随するか否かに関わらず、意味論的に関連付けられたターゲットイメージを検索する一般的な検索設定である。
この定式化は、Composeed Image Retrieval (CIR) と Sketch-Based Image Retrieval (SBIR) の2つの主要なタスクを統一する。
本研究では,低データ管理下でIGROTに対処するため,Null-textプロンプトでイメージを融合させる軽量で汎用的なターゲット表現であるUNIONを導入する。
固定ターゲット機能に依存する従来のアプローチとは異なり、UNIONは事前訓練された視覚言語モデルにアーキテクチャ変更を加えることなく、マルチモーダルクエリとのセマンティックアライメントを強化する。
LlavaSCo の CIR と Training-Sketchy の SBIR の 5000 のトレーニングサンプル で、我々の方法は、CIRCO mAP@50 の 38.5 と Sketchy mAP@200 の 82.7 のベンチマークで競合する結果を得る。
これは、多様なクエリタイプをまたいだビジョンと言語をブリッジする上で、UNIONの堅牢性と効率性を示している。
関連論文リスト
- SQUARE: Semantic Query-Augmented Fusion and Efficient Batch Reranking for Training-free Zero-Shot Composed Image Retrieval [2.624097337766623]
Composed Image Retrieval (CIR) は、ユーザが指定したテキスト修正を取り入れつつ、参照画像の視覚的内容を保存するターゲット画像の検索を目的としている。
ZS-CIRを強化するために,MLLM(Multimodal Large Language Models)を利用した新しい2段階学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-30T14:41:24Z) - Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval [52.709090256954276]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、合成クエリによってターゲット画像を取得することを目的としている。
本稿では,ZS-CIRにMRA(Multimodal Reasoning Agent)を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:17:50Z) - Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。