論文の概要: FIGROTD: A Friendly-to-Handle Dataset for Image Guided Retrieval with Optional Text
- arxiv url: http://arxiv.org/abs/2511.22247v1
- Date: Thu, 27 Nov 2025 09:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.476243
- Title: FIGROTD: A Friendly-to-Handle Dataset for Image Guided Retrieval with Optional Text
- Title(参考訳): FIGROTD:オプションテキストによる画像検索のためのフレンドリーでハンドルなデータセット
- Authors: Hoang-Bao Le, Allie Tran, Binh T. Nguyen, Liting Zhou, Cathal Gurrin,
- Abstract要約: Image-Guided Retrieval with Optional Text (IGROT)は、視覚検索(テキストなし)と合成検索(テキストなし)を統一する。
FIGROTDは軽量だが高品質なIGROTデータセットで、16,474個のトレーニングトレーレットと1,262個のテストトレーレットを備える。
FIGROTDでトレーニングされたVaGFeMは9つのベンチマークで競合し、CIRCOで34.8 mAP@10、Sketchyで75.7 mAP@200に達した。
- 参考スコア(独自算出の注目度): 3.6723140587841656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-Guided Retrieval with Optional Text (IGROT) unifies visual retrieval (without text) and composed retrieval (with text). Despite its relevance in applications like Google Image and Bing, progress has been limited by the lack of an accessible benchmark and methods that balance performance across subtasks. Large-scale datasets such as MagicLens are comprehensive but computationally prohibitive, while existing models often favor either visual or compositional queries. We introduce FIGROTD, a lightweight yet high-quality IGROT dataset with 16,474 training triplets and 1,262 test triplets across CIR, SBIR, and CSTBIR. To reduce redundancy, we propose the Variance Guided Feature Mask (VaGFeM), which selectively enhances discriminative dimensions based on variance statistics. We further adopt a dual-loss design (InfoNCE + Triplet) to improve compositional reasoning. Trained on FIGROTD, VaGFeM achieves competitive results on nine benchmarks, reaching 34.8 mAP@10 on CIRCO and 75.7 mAP@200 on Sketchy, outperforming stronger baselines despite fewer triplets.
- Abstract(参考訳): Image-Guided Retrieval with Optional Text (IGROT)は、視覚検索(テキストなし)と合成検索(テキストなし)を統一する。
Google ImageやBingのようなアプリケーションに関連があるにもかかわらず、サブタスク間でパフォーマンスのバランスをとるためのベンチマークやメソッドが欠如しているため、進歩は限られている。
MagicLensのような大規模なデータセットは包括的だが、計算的に禁止されている。
FIGROTDは軽量だが高品質なIGROTデータセットで、16,474個のトレーニングトレーレットと1,262個のテストトレーレットがCIR、SBIR、CSTBIRにまたがっている。
冗長性を低減するため,分散統計に基づく識別次元を選択的に強化する分散誘導特徴マスク (VaGFeM) を提案する。
さらに、合成推論を改善するために、デュアルロス設計(InfoNCE + Triplet)を採用する。
FIGROTDでトレーニングされたVaGFeMは、CIRCOで34.8 mAP@10、Sketchyで75.7 mAP@200という9つのベンチマークで競合する結果を得た。
関連論文リスト
- UNION: A Lightweight Target Representation for Efficient Zero-Shot Image-Guided Retrieval with Optional Textual Queries [3.6723140587841656]
Image-Guided Retrieval with Optional Text (IGROT) は、クエリがアンカーイメージで構成され、テキストに付随するか否かに関わらず、意味論的に関連付けられたターゲットイメージを検索する一般的な検索設定である。
本研究では,低データ管理下でIGROTに対処するため,Null-textプロンプトでイメージを融合させる軽量で汎用的なターゲット表現であるUNIONを導入する。
論文 参考訳(メタデータ) (2025-11-27T09:28:28Z) - VisRet: Visualization Improves Knowledge-Intensive Text-to-Image Retrieval [56.12310817934239]
クロスモーダルな埋め込みは概念の袋として振る舞うが、ポーズや視点のような構造的な視覚的関係が不足している。
この制限を緩和するT2I検索のための新しいパラダイムであるVisualize-then-Retrieve (VisRet)を提案する。
VisRetは、T2I検索をテキスト間類似性マッチングとして再キャストする、モーダル間の類似性マッチングとベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2025-05-26T17:59:33Z) - Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval [52.709090256954276]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、合成クエリによってターゲット画像を取得することを目的としている。
本稿では,ZS-CIRにMRA(Multimodal Reasoning Agent)を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:17:50Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - A Recipe for Efficient SBIR Models: Combining Relative Triplet Loss with
Batch Normalization and Knowledge Distillation [3.364554138758565]
SBIR(Sketch-Based Image Retrieval)は、マルチメディア検索において重要なタスクであり、指定されたスケッチクエリにマッチした画像の集合を検索することを目的としている。
我々は, アンカーの類似性に基づく損失重み付けにより, 制限を克服する適応三重項損失である相対三重項損失(RTL)を導入する。
本稿では, 知識蒸留による精度の限界損失を抑えて, 小型モデルを効率的に訓練するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T12:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。