論文の概要: Resolving Ambiguity in Composed Image Retrieval via Calibrated Interaction
- arxiv url: http://arxiv.org/abs/2605.24634v2
- Date: Tue, 26 May 2026 01:30:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.076794
- Title: Resolving Ambiguity in Composed Image Retrieval via Calibrated Interaction
- Title(参考訳): 校正相互作用による合成画像検索における曖昧性の解消
- Authors: Amsisan Tran, Baogh Le, Tuan Kiet Pham, Sui Yang Guang,
- Abstract要約: 合成画像検索(CIR)は、コーパスに参照画像と修正方法を記述するテキストを検索する。
本稿では,CIRRの休眠補助アノテーションと対話アノテーションを復活させる,ベンチマークおよび人間検証型ユーザシミュレータであるAmbiCIRを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Composed image retrieval (CIR) searches a corpus with a reference image and a text describing how to modify it. Despite rapid progress from triplet-trained compositors to zero-shot and generative methods, essentially all systems share one assumption: that a query maps to a single target, scored by Recall@K against one annotation. We argue this is fundamentally at odds with the task. A query such as make it more formal does not name an image but a region of the corpus, and which member the user intends is genuinely underdetermined. This underspecification is the root of the well-known false-negative problem and leaves current models unable to tell a precise query from an ambiguous one. We reframe CIR as calibrated intent resolution under uncertainty: a retriever is wrapped in a conformal prediction layer that returns a candidate set with a coverage guarantee and whose size is a principled measure of ambiguity; when the set is large, an expected-information-gain policy asks the single most useful clarifying question, drawn from interpretable ambiguity axes, and the set contracts. We introduce AmbiCIR, a benchmark and human-validated user simulator that revive the dormant auxiliary and dialogue annotations of CIRR and extend the multiple-positive setting of CIRCO. Across open-domain and fashion benchmarks our method matches single-turn state of the art, confirming calibrated resolution is cost-free on precise queries, while reaching the intended target in a fraction of the interaction budget required by naive conversational baselines, and it is the first to report valid coverage and calibration for the task.
- Abstract(参考訳): 合成画像検索(CIR)は、コーパスに参照画像と修正方法を記述するテキストを検索する。
トリプルトトレーニングされたコンポジトリからゼロショットおよび生成メソッドへの急速な進歩にもかかわらず、基本的にすべてのシステムは1つの仮定を共有している。
これは基本的にその仕事と相反するものだと私たちは主張する。
よりフォーマルにするなどのクエリは、イメージではなく、コーパスの領域を指定し、ユーザが意図するメンバーを真に過小評価する。
この不明瞭さは、よく知られた偽陰性問題の根源であり、現在のモデルは曖昧な問題から正確なクエリを判断できないままである。
我々は、CIRを、不確実性の下で校正された意図解決として再設定する: 検索者は、カバー保証付き候補セットを返却する共形予測層にラップされ、そのサイズがあいまいさの原則的尺度である; 集合が大きくなると、予測情報ゲインポリシーは、解釈可能なあいまいさ軸とセットコントラクトから引き出された、最も有用な明確な質問を単一の質問する。
本稿では、CIRRの休眠補助アノテーションと対話アノテーションを復活させ、CIRCOの多重陽性設定を拡張したベンチマークおよび人間検証ユーザーシミュレータであるAmbiCIRを紹介する。
オープンドメインとファッションベンチマーク全体にわたって、我々の手法は、単一のターン状態と一致し、キャリブレーションされた解像度が正確なクエリではコストがかからないことを確認するとともに、会話ベースラインに要求されるインタラクション予算のごく一部に到達し、タスクの有効なカバレッジとキャリブレーションを報告した最初の方法である。
関連論文リスト
- A Sanity Check on Composed Image Retrieval [91.95275287747499]
Composed Image Retrieval (CIR) は、参照画像からなるクエリと、所望の修正を指定する相対的なキャプションに基づいて、ターゲット画像を取得することを目的としている。
FISD(Fully-Informed Semantically-Diverse benchmark)は、参照ターゲット画像対の変数を正確に制御するために生成モデルを利用する。
本稿では,対話型シナリオにおける既存モデルの可能性を探るためのマルチラウンドエージェント評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T15:52:22Z) - DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval [53.482391830683014]
合成画像検索(CIR)は、参照画像と、意図した変更を特定する修正テキストとを共同で解釈することにより、対象画像を検索するタスクに対処する。
既存のほとんどの手法は、基底の真理像を唯一の正の例として扱い、残りの全ての画像を負の例として扱う対照的な学習フレームワークの上に構築されている。
学習可能な属性重みとターゲットの相対的負サンプリングによるクエリ埋め込みを提案する。
論文 参考訳(メタデータ) (2026-03-04T13:17:44Z) - Learning Fine-Grained Correspondence with Cross-Perspective Perception for Open-Vocabulary 6D Object Pose Estimation [14.262846967061947]
微粒化対応ポース推定(FiCoP)は、ノイズの発するグローバルマッチングから空間的に制約されたパッチレベル対応へ移行するフレームワークである。
FiCoPは、最先端の手法と比較して平均リコールを8.0%と6.1%改善する。
論文 参考訳(メタデータ) (2026-01-20T03:48:54Z) - SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation [58.80001825332851]
Referring Image (RIS) は、自然言語で表現された画像に対象のオブジェクトを分割することを目的としている。
最近の手法は主に「赤い車」や「左少女」のような単純な表現に焦点を当てている
論文 参考訳(メタデータ) (2025-10-11T10:50:58Z) - SETR: A Two-Stage Semantic-Enhanced Framework for Zero-Shot Composed Image Retrieval [4.230223288110963]
Zero-shot Composed Image Retrieval (ZS-CIR)は、トリプルトアノテーションに頼ることなく、参照画像と相対テキストが与えられたターゲット画像を取得することを目的としている。
既存のCLIPベースの手法では、(1)組合ベースの特徴融合は、意図した変更を希釈する無関係な背景の詳細を担いながら、すべての視覚的手がかりを無差別に集約し、(2)CLIP埋め込みからのグローバルなコサイン類似性は、きめ細かいセマンティックな関係を解く能力に欠ける。
論文 参考訳(メタデータ) (2025-09-30T09:41:52Z) - CONFLARE: CONFormal LArge language model REtrieval [0.0]
Retrieval-augmented Generation (RAG)フレームワークは、大規模言語モデル(LLM)が知識ベースから関連する情報を検索し、応答を生成するコンテキストに組み込むことを可能にする。
RAGは、検索が必要な情報を応答生成のコンテキストとして識別できない場合、有効な応答を保証しない。
本稿では,RAGフレームワークにおける検索不確実性を定量化するために,共形予測を適用するための4段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-04T02:58:21Z) - On the Estimation of Image-matching Uncertainty in Visual Place Recognition [7.769607568805291]
ビジュアルプレース認識(VPR)では、画像と参照画像のマップと既知の参照ポーズとを比較して、クエリ画像のポーズを推定する。
この研究は、画像マッチングの不確実性を推定するための主要なアプローチを初めて比較した。
簡単なベースライン法であるSUE'を定式化し、他の方法と異なり、地図上の参照画像の自由なポーズを考える。
論文 参考訳(メタデータ) (2024-03-31T03:24:48Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z) - Iterative Shrinking for Referring Expression Grounding Using Deep
Reinforcement Learning [20.23920009396818]
我々は,問合せ文に従って対象オブジェクトをローカライズすることを目的とした,提案なし参照表現基底化タスクに取り組んでいる。
既存のプロポーザルフリー手法では、クエリ画像マッチングブランチを使用して、画像特徴マップの最高スコアをターゲットボックスセンターとして選択する。
対象を局所化するための反復的縮小機構を提案し,強化学習エージェントによって縮小方向が決定される。
論文 参考訳(メタデータ) (2021-03-09T02:36:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。