論文の概要: A Comprehensive Survey on Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2502.18495v2
- Date: Tue, 04 Mar 2025 15:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:12:00.724995
- Title: A Comprehensive Survey on Composed Image Retrieval
- Title(参考訳): 合成画像検索に関する総合的研究
- Authors: Xuemeng Song, Haoqiang Lin, Haokun Wen, Bohan Hou, Mingzhu Xu, Liqiang Nie,
- Abstract要約: Composed Image Retrieval (CIR)は、ユーザがマルチモーダルクエリを使ってターゲットイメージを検索できる、新しくて困難なタスクである。
現在、この分野のタイムリーな概要を提供するため、CIRの包括的なレビューは行われていない。
我々は、ACM TOIS、SIGIR、CVPRなど、トップカンファレンスやジャーナルで120以上の出版物から洞察を合成する。
- 参考スコア(独自算出の注目度): 54.54527281731775
- License:
- Abstract: Composed Image Retrieval (CIR) is an emerging yet challenging task that allows users to search for target images using a multimodal query, comprising a reference image and a modification text specifying the user's desired changes to the reference image. Given its significant academic and practical value, CIR has become a rapidly growing area of interest in the computer vision and machine learning communities, particularly with the advances in deep learning. To the best of our knowledge, there is currently no comprehensive review of CIR to provide a timely overview of this field. Therefore, we synthesize insights from over 120 publications in top conferences and journals, including ACM TOIS, SIGIR, and CVPR In particular, we systematically categorize existing supervised CIR and zero-shot CIR models using a fine-grained taxonomy. For a comprehensive review, we also briefly discuss approaches for tasks closely related to CIR, such as attribute-based CIR and dialog-based CIR. Additionally, we summarize benchmark datasets for evaluation and analyze existing supervised and zero-shot CIR methods by comparing experimental results across multiple datasets. Furthermore, we present promising future directions in this field, offering practical insights for researchers interested in further exploration. The curated collection of related works is maintained and continuously updated in https://github.com/haokunwen/Awesome-Composed-Image-Retrieval.
- Abstract(参考訳): Composed Image Retrieval (CIR)は、ユーザが参照画像と、参照画像に対するユーザの望ましい変更を指定する修正テキストを含む、マルチモーダルクエリを使ってターゲットイメージを検索できるようにする、新しくて困難なタスクである。
重要な学術的、実践的な価値から、CIRはコンピュータビジョンや機械学習コミュニティ、特にディープラーニングの進歩に急速に関心を寄せている。
我々の知る限りでは、現在、この分野のタイムリーな概要を提供するためのCIRの包括的なレビューはありません。
そこで我々は, ACM TOIS, SIGIR, CVPRを含む120以上の学術雑誌から, 既存のCIRおよびゼロショットCIRモデルを, きめ細かい分類法を用いて体系的に分類した。
また,属性ベースのCIRやダイアログベースのCIRなど,CIRと密接に関連するタスクに対するアプローチについても概説する。
さらに,複数のデータセットを対象とした実験結果を比較し,既存の教師付きCIR手法とゼロショットCIR手法の評価と解析を行うベンチマークデータセットを要約した。
さらに,本分野における将来的な方向性を示すとともに,さらなる探究に関心のある研究者に実践的な洞察を提供する。
関連作品のキュレートされたコレクションは、https://github.com/haokunwen/Awesome-Composed-Image-Retrieval.comで継続的に更新される。
関連論文リスト
- iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval [26.101116761577796]
Composed Image Retrieval (CIR) は、相対キャプションに指定された変化を取り入れつつ、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新しいタスクであるZero-Shot CIR(ZS-CIR)を導入する。
CIRCOと呼ばれるオープンドメインベンチマークデータセットを提示し、各クエリに複数の基底真理とセマンティック分類をラベル付けする。
論文 参考訳(メタデータ) (2024-05-05T14:39:06Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Advancements in Content-Based Image Retrieval: A Comprehensive Survey of
Relevance Feedback Techniques [0.0]
コンテントベース画像検索(CBIR)システムはコンピュータビジョンの分野で重要なツールとして登場してきた。
本稿では,対象検出におけるCBIRの役割と,コンテンツ特徴に基づく視覚的に類似した画像の識別と検索の可能性について,包括的に概説する。
低レベルの特徴と高レベルのセマンティック概念の相違から生じるセマンティックギャップについて詳述し、このギャップを橋渡しするためのアプローチを探る。
論文 参考訳(メタデータ) (2023-12-13T11:07:32Z) - UniIR: Training and Benchmarking Universal Multimodal Information
Retrievers [76.06249845401975]
命令誘導型マルチモーダルレトリバーであるUniIRを導入する。
UniIRは、10の多様なマルチモーダル-IRデータセットで共同で訓練された単一の検索システムであり、様々な検索タスクを実行するためにユーザー命令を解釈する。
我々は,汎用マルチモーダル情報検索の評価を標準化するために,総合的な結果を持つマルチモーダル検索ベンチマークであるM-BEIRを構築した。
論文 参考訳(メタデータ) (2023-11-28T18:55:52Z) - Zero-Shot Composed Image Retrieval with Textual Inversion [28.513594970580396]
Composed Image Retrieval (CIR) は、参照画像と相対キャプションからなるクエリに基づいてターゲット画像を取得することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処することを目的とした新しいタスクZero-Shot CIR(ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-03-27T14:31:25Z) - Data Roaming and Quality Assessment for Composed Image Retrieval [25.452015862927766]
Composed Image Retrieval (CoIR)は、画像とテキストのモダリティを組み合わせたクエリで、ユーザがより効果的にインテントを表現できるようにする。
我々は,既存のものより10倍大きい新しいCoIRデータセットであるLaSCoデータセットを紹介する。
また、新しいCoIRベースラインであるCASE(Cross-Attention driven Shift)も導入する。
論文 参考訳(メタデータ) (2023-03-16T16:02:24Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。