論文の概要: Automatic Synthesis of High-Quality Triplet Data for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2507.05970v1
- Date: Tue, 08 Jul 2025 13:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.133646
- Title: Automatic Synthesis of High-Quality Triplet Data for Composed Image Retrieval
- Title(参考訳): 合成画像検索のための高品質トリプレットデータの自動合成
- Authors: Haiwen Li, Delong Liu, Zhaohui Hou, Zhicheng Zhao, Fei Su,
- Abstract要約: Composed Image Retrieval (CIR)は、マルチモーダル(image+text)クエリを使ってターゲット画像を取得することを目的としている。
完全合成データセットであるComposeed Image Retrieval on High-quality Synthetic Triplets (CIRHS)とともに,自動三重項生成のためのスケーラブルパイプラインを提案する。
- 参考スコア(独自算出の注目度): 19.520776313567737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a challenging vision-language (VL) task, Composed Image Retrieval (CIR) aims to retrieve target images using multimodal (image+text) queries. Although many existing CIR methods have attained promising performance, their reliance on costly, manually labeled triplets hinders scalability and zero-shot capability. To address this issue, we propose a scalable pipeline for automatic triplet generation, along with a fully synthetic dataset named Composed Image Retrieval on High-quality Synthetic Triplets (CIRHS). Our pipeline leverages a large language model (LLM) to generate diverse prompts, controlling a text-to-image generative model to produce image pairs with identical elements in each pair, which are then filtered and reorganized to form the CIRHS dataset. In addition, we introduce Hybrid Contextual Alignment (CoAlign), a novel CIR framework, which can accomplish global alignment and local reasoning within a broader context, enabling the model to learn more robust and informative representations. By utilizing the synthetic CIRHS dataset, CoAlign achieves outstanding zero-shot performance on three commonly used benchmarks, demonstrating for the first time the feasibility of training CIR models on a fully synthetic dataset. Furthermore, under supervised training, our method outperforms all the state-of-the-art supervised CIR approaches, validating the effectiveness of our proposed retrieval framework. The code and the CIRHS dataset will be released soon.
- Abstract(参考訳): 視覚言語(VL)タスクとして、Composeed Image Retrieval(CIR)は、マルチモーダル(image+text)クエリを使用してターゲット画像を取得することを目的としている。
多くの既存のCIR手法は有望な性能を達成しているが、手動でラベル付けされたトリップレットはスケーラビリティとゼロショット能力を妨げている。
この問題に対処するため、我々は、完全合成データセットであるComposeed Image Retrieval on High-quality Synthetic Triplets (CIRHS)とともに、自動三重項生成のためのスケーラブルパイプラインを提案する。
我々のパイプラインは、大きな言語モデル(LLM)を利用して多様なプロンプトを生成し、テキストから画像への生成モデルを制御し、各ペアに同じ要素を持つ画像ペアを生成し、それをフィルタして再編成してCIRHSデータセットを形成する。
さらに,CIRフレームワークであるHybrid Contextual Alignment(CoAlign)を導入し,より広いコンテキスト内でグローバルなアライメントと局所的推論を実現し,モデルがより堅牢で情報的表現を学習できるようにする。
合成CIRHSデータセットを利用することで、CoAlignは3つの一般的なベンチマークで優れたゼロショットパフォーマンスを達成し、完全な合成データセット上でCIRモデルをトレーニングする可能性を初めて実証した。
さらに,教師あり学習において,提案手法は最先端のCIR手法よりも優れており,提案手法の有効性が検証されている。
コードとCIRHSデータセットは近くリリースされる予定だ。
関連論文リスト
- Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval [52.709090256954276]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、合成クエリによってターゲット画像を取得することを目的としている。
本稿では,ZS-CIRにMRA(Multimodal Reasoning Agent)を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:17:50Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Triplet Synthesis For Enhancing Composed Image Retrieval via Counterfactual Image Generation [38.091197064787565]
Composed Image Retrieval (CIR)は、大規模な視覚データの管理とアクセスに有効な手段を提供する。
本稿では, 対実画像生成を利用した新しい三重項合成法を提案する。
論文 参考訳(メタデータ) (2025-01-22T07:18:46Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - CoVR-2: Automatic Data Construction for Composed Video Retrieval [59.854331104466254]
Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。
本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。
また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
論文 参考訳(メタデータ) (2023-08-28T17:55:33Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。