論文の概要: PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing
- arxiv url: http://arxiv.org/abs/2603.04598v1
- Date: Wed, 04 Mar 2026 20:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.977637
- Title: PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing
- Title(参考訳): PinPoint: 明示的否定、複数画像クエリ、パラフレーズテストによる合成画像検索の評価
- Authors: Rohan Mahadev, Joyce Yuan, Patrick Poirson, David Xue, Hao-Yu Wu, Dmitry Kislyuk,
- Abstract要約: Composed Image Retrieval (CIR) は大きな進歩を遂げているが、現在のベンチマークは1つの接地的回答に限られている。
我々は、7,635のクエリと329Kの関連判断を備えた総合的な実世界のベンチマークであるPinPointを紹介する。
- 参考スコア(独自算出の注目度): 3.889218009169166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed Image Retrieval (CIR) has made significant progress, yet current benchmarks are limited to single ground-truth answers and lack the annotations needed to evaluate false positive avoidance, robustness and multi-image reasoning. We present PinPoint, a comprehensive real world benchmark with 7,635 queries and 329K relevance judgments across 23 query categories. PinPoint advances the field by providing: (1) multiple correct answers (averaging 9.1 per query) (2) explicit hard negatives, (3) six instruction paraphrases per query for robustness testing, (4) multi-image composition support (13.4% of queries), and (5) demographic metadata for fairness evaluation. Based on our analysis of 20+ methods across 4 different major paradigms, we uncover three significant drawbacks: The best methods while achieving mAP@10 of 28.5%, still retrieves irrelevant results (hard negatives) 9% of the time. The best models also exhibit 25.1% performance variation across paraphrases, indicating significant potential for enhancing current CIR techniques. Multi-image queries performs 40 to 70% worse across different methods. To overcome these new issues uncovered by our evaluation framework, we propose a training-free reranking method based on an off-the-shelf MLLM that can be applied to any existing system to bridge the gap. We release the complete dataset, including all images, queries, annotations, retrieval index, and benchmarking code.
- Abstract(参考訳): Composed Image Retrieval (CIR) は大きな進歩を遂げているが、現在のベンチマークは1つの基礎的回答に限られており、偽陽性回避、堅牢性、マルチイメージ推論を評価するのに必要なアノテーションが欠如している。
我々は、23のクエリカテゴリにわたる7,635のクエリと329Kの関連性判定を備えた総合的な実世界のベンチマークであるPinPointを提示する。
PinPointは、(1)複数の正解(9.1クエリ)、(2)明示的な強陰性、(3)堅牢性テストのためのクエリ毎の6つの命令パラフレーズ、(4)マルチイメージ合成サポート(クエリの13.4%)、(5)公正性評価のための統計メタデータを提供する。
4つの主要なパラダイムにまたがる20以上のメソッドの分析から、3つの重大な欠点が明らかになった。
最高のモデルはパラフレーズ間で25.1%の性能変化を示し、現在のCIR技術を強化する大きな可能性を示唆している。
マルチイメージクエリは、異なるメソッドに対して40から70%悪化する。
評価フレームワークによって明らかになったこれらの新たな問題を克服するため,既存のシステムに適用してギャップを埋めることのできる,既設のMLLMに基づくトレーニング不要なリグレード手法を提案する。
すべての画像、クエリ、アノテーション、検索インデックス、ベンチマークコードを含む完全なデータセットをリリースします。
関連論文リスト
- IRPAPERS: A Visual Document Benchmark for Scientific Retrieval and Question Answering [1.4427879901952518]
我々は166の科学論文から3,230ページのベンチマークであるIRPAPERSを紹介し、各ページに画像とOCRの書き起こしがある。
画像とテキストによる検索と質問応答システムの比較を行った。
我々は、一助文と画像表現の限界を分析し、一方のモダリティを必要とする質問タイプを他方で識別する。
論文 参考訳(メタデータ) (2026-02-05T21:57:43Z) - FIGROTD: A Friendly-to-Handle Dataset for Image Guided Retrieval with Optional Text [3.6723140587841656]
Image-Guided Retrieval with Optional Text (IGROT)は、視覚検索(テキストなし)と合成検索(テキストなし)を統一する。
FIGROTDは軽量だが高品質なIGROTデータセットで、16,474個のトレーニングトレーレットと1,262個のテストトレーレットを備える。
FIGROTDでトレーニングされたVaGFeMは9つのベンチマークで競合し、CIRCOで34.8 mAP@10、Sketchyで75.7 mAP@200に達した。
論文 参考訳(メタデータ) (2025-11-27T09:18:56Z) - HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Chain-of-Thought Re-ranking for Image Retrieval Tasks [16.13448876168839]
そこで我々は,画像検索に対処する新しいChain-of-Thought Re-Ranking(CoTRR)手法を提案する。
MLLMがリストワイズ推論を行えるようにすることで,グローバル比較,一貫した推論,解釈可能な意思決定をサポートする。
提案手法は,テキスト・トゥ・イメージ検索(TIR),合成画像検索(CIR),チャットベースの画像検索(Chat-IR)など,3つの画像検索タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-18T08:48:46Z) - ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge [50.93758649363798]
Impliretは、推論の課題をドキュメント側処理にシフトするベンチマークである。
我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
論文 参考訳(メタデータ) (2025-06-17T11:08:29Z) - Zero Shot Composed Image Retrieval [0.0]
合成画像検索(CIR)により、ユーザは、きめ細かいテキスト編集を施すことで、ターゲット画像を見つけることができる。
Zero-shot CIRは、イメージとテキストを別途トレーニング済みの視覚言語エンコーダで埋め込むもので、FashionIQベンチマークで20-25%のRecall@10にしか達しない。
我々は、視覚的特徴とテキスト的特徴を1つの埋め込みに融合する軽量Q-FormerでBLIP-2を微調整することで、これを改善した。
論文 参考訳(メタデータ) (2025-06-07T00:38:43Z) - LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - Efficient and Discriminative Image Feature Extraction for Universal Image Retrieval [1.907072234794597]
様々な領域にまたがる強力な意味的イメージ表現を提供する普遍的特徴抽出装置のためのフレームワークを開発する。
Google Universal Image Embedding Challengeでは、mMP@5の0.721で、最先端の成果をほぼ達成しています。
類似の計算条件を持つ手法と比較して,従来の手法よりも3.3ポイント優れていた。
論文 参考訳(メタデータ) (2024-09-20T13:53:13Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs [61.01278660925202]
Dyscaは、合成画像を利用してLVLMを評価するための動的でスケーラブルなベンチマークである。
51種類のイメージスタイルを考慮し,20のサブタスクにおいて知覚能力を評価する。
Dyscaは、新しいサブタスクやシナリオを簡単に追加するためのスケーラブルなベンチマークとして機能する。
論文 参考訳(メタデータ) (2024-06-27T02:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。