論文の概要: Instance-Level Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2510.25387v1
- Date: Wed, 29 Oct 2025 10:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.407931
- Title: Instance-Level Composed Image Retrieval
- Title(参考訳): インスタンスレベル構成画像検索
- Authors: Bill Psomas, George Retsinas, Nikos Efthymiadis, Panagiotis Filntisis, Yannis Avrithis, Petros Maragos, Ondrej Chum, Giorgos Tolias,
- Abstract要約: i-CIRは、インスタンスレベルのクラス定義に焦点を当てた、新しい評価データセットである。
その設計とキュレーションプロセスは、将来の研究を促進するためにデータセットをコンパクトに保つ。
事前学習された視覚・言語モデル(VLM)を,BASICと呼ばれる学習自由なアプローチで活用する。
- 参考スコア(独自算出の注目度): 34.04479584450632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The progress of composed image retrieval (CIR), a popular research direction in image retrieval, where a combined visual and textual query is used, is held back by the absence of high-quality training and evaluation data. We introduce a new evaluation dataset, i-CIR, which, unlike existing datasets, focuses on an instance-level class definition. The goal is to retrieve images that contain the same particular object as the visual query, presented under a variety of modifications defined by textual queries. Its design and curation process keep the dataset compact to facilitate future research, while maintaining its challenge-comparable to retrieval among more than 40M random distractors-through a semi-automated selection of hard negatives. To overcome the challenge of obtaining clean, diverse, and suitable training data, we leverage pre-trained vision-and-language models (VLMs) in a training-free approach called BASIC. The method separately estimates query-image-to-image and query-text-to-image similarities, performing late fusion to upweight images that satisfy both queries, while down-weighting those that exhibit high similarity with only one of the two. Each individual similarity is further improved by a set of components that are simple and intuitive. BASIC sets a new state of the art on i-CIR but also on existing CIR datasets that follow a semantic-level class definition. Project page: https://vrg.fel.cvut.cz/icir/.
- Abstract(参考訳): 画像検索における一般的な研究方向である合成画像検索(CIR)の進歩は、高品質なトレーニングと評価データがないことにより、視覚的およびテキスト的クエリが併用される。
既存のデータセットとは異なり、インスタンスレベルのクラス定義に焦点を当てた新しい評価データセットi-CIRを導入する。
目標は、テキストクエリによって定義されたさまざまな変更の下で表示される、ビジュアルクエリと同じ特定のオブジェクトを含むイメージを検索することである。
その設計とキュレーションプロセスは、データセットをコンパクトに保ち、半自動化されたハードネガティブの選択を通じて、4000万以上のランダムなイントラクタ間の検索にチャレンジ互換を維持しながら、将来の研究を促進する。
クリーンで多様で適切なトレーニングデータを得るという課題を克服するために,BASICと呼ばれるトレーニングフリーアプローチで,事前学習された視覚・言語モデル(VLM)を活用する。
本手法は,問合せ画像と問合せテキスト画像の類似性を別々に推定し,両問合せを満足するアップウェイト画像への遅延融合を行い,両者の1つで高い類似性を示す画像の重み付けを行う。
個々の類似性は、シンプルで直感的なコンポーネントセットによってさらに改善される。
BASICは、i-CIRだけでなく、セマンティックレベルのクラス定義に従う既存のCIRデータセットにも新しい最先端を設定できる。
プロジェクトページ:https://vrg.fel.cvut.cz/icir/。
関連論文リスト
- Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。
本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:04Z) - Composed Object Retrieval: Object-level Retrieval via Composed Expressions [71.47650333199628]
Composed Object Retrieval (COR)は、画像レベルの検索を超えてオブジェクトレベルの精度を達成するための新しいタスクである。
COR127KはCORの最初の大規模ベンチマークであり、408カテゴリの様々な意味変換を持つ127,166個の検索三重項を含む。
また、参照領域エンコーディング、適応型視覚・テキストインタラクション、および領域レベルのコントラスト学習を統合した統合エンドツーエンドモデルであるCOREを提案する。
論文 参考訳(メタデータ) (2025-08-06T13:11:40Z) - Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。
本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。
提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-18T10:20:28Z) - Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。
そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。