論文の概要: InfoCIR: Multimedia Analysis for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2602.13402v1
- Date: Fri, 13 Feb 2026 19:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.01816
- Title: InfoCIR: Multimedia Analysis for Composed Image Retrieval
- Title(参考訳): InfoCIR: 合成画像検索のためのマルチメディア分析
- Authors: Ioannis Dravilas, Ioannis Kapetangeorgis, Anastasios Latsoudis, Conor McCarthy, Gonçalo Marcelino, Marcel Worring,
- Abstract要約: Composed Image Retrievalimation (CIR) では、参照イメージと所望の修正を記述したテキストプロンプトを組み合わせることで、画像の検索が可能になる。
本稿では,このギャップを埋める視覚解析システムであるInfoCIRについて紹介する。
- 参考スコア(独自算出の注目度): 9.958100668691062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) allows users to search for images by combining a reference image with a text prompt that describes desired modifications. While vision-language models like CLIP have popularized this task by embedding multiple modalities into a joint space, developers still lack tools that reveal how these multimodal prompts interact with embedding spaces and why small wording changes can dramatically alter the results. We present InfoCIR, a visual analytics system that closes this gap by coupling retrieval, explainability, and prompt engineering in a single, interactive dashboard. InfoCIR integrates a state-of-the-art CIR back-end (SEARLE arXiv:2303.15247) with a six-panel interface that (i) lets users compose image + text queries, (ii) projects the top-k results into a low-dimensional space using Uniform Manifold Approximation and Projection (UMAP) for spatial reasoning, (iii) overlays similarity-based saliency maps and gradient-derived token-attribution bars for local explanation, and (iv) employs an LLM-powered prompt enhancer that generates counterfactual variants and visualizes how these changes affect the ranking of user-selected target images. A modular architecture built on Plotly-Dash allows new models, datasets, and attribution methods to be plugged in with minimal effort. We argue that InfoCIR helps diagnose retrieval failures, guides prompt enhancement, and accelerates insight generation during model development. All source code allowing for a reproducible demo is available at https://github.com/giannhskp/InfoCIR.
- Abstract(参考訳): Composed Image Retrieval (CIR) では、参照イメージと所望の修正を記述したテキストプロンプトを組み合わせることで、画像の検索が可能になる。
CLIPのようなビジョン言語モデルは、複数のモダリティをジョイントスペースに埋め込むことで、このタスクを一般化した。
本稿では,このギャップを埋める視覚解析システムInfoCIRについて紹介する。
InfoCIRは最先端のCIRバックエンド(SEARLE arXiv:2303.15247)と6パネルインターフェースを統合している。
(i)画像+テキストクエリを作成できる。
(II)一様多様体近似と射影(UMAP)を用いてトップk結果を低次元空間に射影し、空間的推論を行う。
三 類似性に基づく唾液度図及び勾配由来のトークン属性バーを局所的な説明のためにオーバーレイし、
(iv) はLDM方式のプロンプトエンハンサーを採用し, 反ファクト変動を生成し, ユーザが選択したターゲット画像のランク付けにどのように影響するかを可視化する。
Plotly-Dash上に構築されたモジュラアーキテクチャにより、最小限の労力で、新しいモデル、データセット、属性メソッドをプラグインできる。
我々は,InfoCIRが検索障害の診断,改善の促進,モデル開発における洞察生成の促進を支援することを論じる。
再現可能なデモを可能にするすべてのソースコードはhttps://github.com/giannhskp/InfoCIRで入手できる。
関連論文リスト
- Fine-Grained Zero-Shot Composed Image Retrieval with Complementary Visual-Semantic Integration [64.12127577975696]
ゼロショット合成画像検索(ZS-CIR)は急速に発展し,実用化が進んでいる分野である。
既存のZS-CIR法は、細粒度の変化を捉え、視覚情報と意味情報を効果的に統合するのに苦労することが多い。
補足型ビジュアルセマンティック統合を用いたファイングラインドゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2026-01-20T15:17:14Z) - good4cir: Generating Detailed Synthetic Captions for Composed Image Retrieval [10.156187875858995]
コンポジション画像検索(CIR)により、ユーザーは参照画像とテキスト修正を組み合わせることで画像を検索できる。
高品質な合成アノテーションを生成するために視覚言語モデルを活用した構造化パイプラインである good4cir を導入する。
その結果,パイプライン生成データセットに基づいてトレーニングしたCIRモデルの検索精度が向上した。
論文 参考訳(メタデータ) (2025-03-22T22:33:56Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。
実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。
命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T22:46:52Z) - Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - MosAIc: Finding Artistic Connections across Culture with Conditional
Image Retrieval [27.549695661396274]
視覚的類似性検索とユーザ提供フィルタと「条件」を組み合わせた条件付き画像検索(CIR)を導入する。
CIRは、画像コーパスの異なるサブセットにまたがる類似した画像のペアを見つけることができる。
我々は,我々のCIRデータ構造がGAN(Generative Adversarial Networks)において,真のデータ分布を適切にモデル化できない「盲点」を識別可能であることを示す。
論文 参考訳(メタデータ) (2020-07-14T16:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。