論文の概要: A Sanity Check on Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2604.12904v1
- Date: Tue, 14 Apr 2026 15:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.543889
- Title: A Sanity Check on Composed Image Retrieval
- Title(参考訳): 合成画像検索における正当性検査
- Authors: Yikun Liu, Jiangchao Yao, Weidi Xie, Yanfeng Wang,
- Abstract要約: Composed Image Retrieval (CIR) は、参照画像からなるクエリと、所望の修正を指定する相対的なキャプションに基づいて、ターゲット画像を取得することを目的としている。
FISD(Fully-Informed Semantically-Diverse benchmark)は、参照ターゲット画像対の変数を正確に制御するために生成モデルを利用する。
本稿では,対話型シナリオにおける既存モデルの可能性を探るためのマルチラウンドエージェント評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 91.95275287747499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) aims to retrieve a target image based on a query composed of a reference image, and a relative caption that specifies the desired modification. Despite the rapid development of CIR models, their performance is not well characterized by existing benchmarks, which inherently contain indeterminate queries degrading the evaluation (i.e., multiple candidate images, rather than solely the target image, meet the query criteria), and have not considered their effectiveness in the context of the multi-round system. Motivated by this, we consider improving the evaluation procedure from two aspects: 1) we introduce FISD, a Fully-Informed Semantically-Diverse benchmark, which employs generative models to precisely control the variables of reference-target image pairs, enabling a more accurate evaluation of CIR methods across six dimensions, without query ambiguity; 2) we propose an automatic multi-round agentic evaluation framework to probe the potential of the existing models in the interactive scenarios. By observing how models adapt and refine their choices over successive rounds of queries, this framework provides a more realistic appraisal of their efficacy in practical applications. Extensive experiments and comparisons prove the value of our novel evaluation on typical CIR methods.
- Abstract(参考訳): Composed Image Retrieval (CIR) は、参照画像からなるクエリと、所望の修正を指定する相対的なキャプションに基づいて、ターゲット画像を取得することを目的としている。
CIRモデルの急速な開発にもかかわらず、その性能は既存のベンチマークではあまり特徴付けられていない。これは本質的には、評価を劣化させる不確定なクエリ(すなわち、ターゲット画像だけでなく、複数の候補画像がクエリ基準を満たしている)を含んでおり、マルチラウンドシステムのコンテキストにおいてそれらの効果を考慮していない。
これを受けて、評価手順の改善を2つの側面から検討する。
1) FISD(Fully-Informed Semantically-Diverseベンチマーク)を導入し,参照対象画像対の変数を正確に制御し,クエリのあいまいさを伴わずに6次元のCIR手法をより正確に評価できるようにする。
2) 対話型シナリオにおける既存モデルの可能性を調べるために, 自動多ラウンドエージェント評価フレームワークを提案する。
このフレームワークは、連続するクエリに対してモデルがどのように適応し、選択を洗練するかを観察することによって、実践的な応用におけるモデルの有効性をより現実的に評価する。
実験および比較実験により, 典型的なCIR法における新しい評価法の有効性が証明された。
関連論文リスト
- Redefining Quality Criteria and Distance-Aware Score Modeling for Image Editing Assessment [28.60763581601123]
IEQAはマルチモーダル入力と多次元評価よりも複雑な推論を必要とする。
本研究では,評価基準とスコア表現を共同で学習する統合フレームワークであるDefine-and-Score Image Editing Quality Assessment (DS-IEQA)を提案する。
2026 NTIRE X-AIGC Quality Assessment Track 2の4位にランクインした。
論文 参考訳(メタデータ) (2026-04-14T01:05:41Z) - Q-REAL: Towards Realism and Plausibility Evaluation for AI-Generated Content [71.46991494014382]
本稿では,AI生成画像におけるリアリズムと妥当性の詳細な評価のための新しいデータセットであるQ-Realを紹介する。
Q-Realは、人気のあるテキスト・ツー・イメージ・モデルによって生成される3,088のイメージで構成されている。
そこで本研究では,Q-Real Benchを2つの課題,すなわち判断と推論による根拠付けに基づいて評価する。
論文 参考訳(メタデータ) (2025-11-21T02:43:17Z) - UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T17:50:21Z) - Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。
本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。
1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文 参考訳(メタデータ) (2024-12-10T18:52:39Z) - PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM [17.89238060470998]
拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。
我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
論文 参考訳(メタデータ) (2024-10-08T06:05:15Z) - TISE: A Toolbox for Text-to-Image Synthesis Evaluation [9.092600296992925]
単目的と多目的のテキスト・ツー・イメージ合成のための最先端手法の研究を行う。
これらの手法を評価するための共通フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-02T16:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。