論文の概要: Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing
- arxiv url: http://arxiv.org/abs/2601.16125v1
- Date: Thu, 22 Jan 2026 17:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.66878
- Title: Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing
- Title(参考訳): 合成画像検索評価の再考:画像編集による細粒度ベンチマーク
- Authors: Tingyu Song, Yanzhao Zhang, Mingxin Li, Zhuoning Guo, Dingkun Long, Pengjun Xie, Siyue Zhang, Yilun Zhao, Shu Wu,
- Abstract要約: Composed Image Retrieval (CIR) はマルチモーダル理解において重要かつ複雑なタスクである。
画像編集を利用して、変更タイプや内容の正確な制御を実現し、幅広いカテゴリのクエリを合成するパイプラインを実現する。
このパイプラインを用いて、新しい粒度CIRベンチマークであるEDIRを構築する。
- 参考スコア(独自算出の注目度): 49.293939113428486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed Image Retrieval (CIR) is a pivotal and complex task in multimodal understanding. Current CIR benchmarks typically feature limited query categories and fail to capture the diverse requirements of real-world scenarios. To bridge this evaluation gap, we leverage image editing to achieve precise control over modification types and content, enabling a pipeline for synthesizing queries across a broad spectrum of categories. Using this pipeline, we construct EDIR, a novel fine-grained CIR benchmark. EDIR encompasses 5,000 high-quality queries structured across five main categories and fifteen subcategories. Our comprehensive evaluation of 13 multimodal embedding models reveals a significant capability gap; even state-of-the-art models (e.g., RzenEmbed and GME) struggle to perform consistently across all subcategories, highlighting the rigorous nature of our benchmark. Through comparative analysis, we further uncover inherent limitations in existing benchmarks, such as modality biases and insufficient categorical coverage. Furthermore, an in-domain training experiment demonstrates the feasibility of our benchmark. This experiment clarifies the task challenges by distinguishing between categories that are solvable with targeted data and those that expose intrinsic limitations of current model architectures.
- Abstract(参考訳): Composed Image Retrieval (CIR) はマルチモーダル理解において重要かつ複雑なタスクである。
現在のCIRベンチマークでは、クエリのカテゴリが限られており、現実世界のシナリオの多様な要件を捉えていないのが一般的である。
この評価ギャップを埋めるため、画像編集を活用して修正タイプや内容の正確な制御を実現し、幅広いカテゴリのクエリを合成するパイプラインを実現する。
このパイプラインを用いて、新しい粒度CIRベンチマークであるEDIRを構築する。
EDIRは5つの主要なカテゴリと15のサブカテゴリにまたがって構成された5,000の高品質なクエリを含んでいる。
最新のモデル(例えばRzenEmbedやGME)でさえ、全てのサブカテゴリで一貫して動作し、ベンチマークの厳密な性質を強調しています。
比較分析により、モダリティバイアスやカテゴリー別カバレッジの不足など、既存のベンチマークに固有の制限を明らかにする。
さらに、ドメイン内トレーニング実験により、ベンチマークの実現可能性を示す。
この実験は、ターゲットデータで解決可能なカテゴリと、現在のモデルアーキテクチャの固有の制約を明らかにするカテゴリを区別することで、タスクの課題を明確にする。
関連論文リスト
- CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - MultiConIR: Towards multi-condition Information Retrieval [38.864056667809095]
MultiConIRは、複雑なマルチ条件クエリシナリオ下での検索および再ランクモデルの評価のために設計されたベンチマークである。
ほとんどのレトリバーとリランカは、クエリの複雑さが増大するにつれて、パフォーマンスが大幅に低下する。
この研究は、リランカの性能劣化の原因を解明し、クエリ内の条件位置が類似性評価にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - A Comprehensive Survey on Composed Image Retrieval [54.54527281731775]
Composed Image Retrieval (CIR)は、ユーザがマルチモーダルクエリを使ってターゲットイメージを検索できる、新しくて困難なタスクである。
現在、この分野のタイムリーな概要を提供するため、CIRの包括的なレビューは行われていない。
我々は、ACM TOIS、SIGIR、CVPRなど、トップカンファレンスやジャーナルで120以上の出版物から洞察を合成する。
論文 参考訳(メタデータ) (2025-02-19T01:37:24Z) - REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。
本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。
我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文 参考訳(メタデータ) (2025-02-17T22:10:47Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。