Fugu-MT 論文翻訳(概要): CoLLM: A Large Language Model for Composed Image Retrieval

論文の概要: CoLLM: A Large Language Model for Composed Image Retrieval

arxiv url: http://arxiv.org/abs/2503.19910v1
Date: Tue, 25 Mar 2025 17:59:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 02:13:56.587617
Title: CoLLM: A Large Language Model for Composed Image Retrieval
Title（参考訳）: CoLLM: 画像検索のための大規模言語モデル
Authors: Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava,
Abstract要約: Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
参考スコア（独自算出の注目度）: 76.29725148964368
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Composed Image Retrieval (CIR) is a complex task that aims to retrieve images based on a multimodal query. Typical training data consists of triplets containing a reference image, a textual description of desired modifications, and the target image, which are expensive and time-consuming to acquire. The scarcity of CIR datasets has led to zero-shot approaches utilizing synthetic triplets or leveraging vision-language models (VLMs) with ubiquitous web-crawled image-caption pairs. However, these methods have significant limitations: synthetic triplets suffer from limited scale, lack of diversity, and unnatural modification text, while image-caption pairs hinder joint embedding learning of the multimodal query due to the absence of triplet data. Moreover, existing approaches struggle with complex and nuanced modification texts that demand sophisticated fusion and understanding of vision and language modalities. We present CoLLM, a one-stop framework that effectively addresses these limitations. Our approach generates triplets on-the-fly from image-caption pairs, enabling supervised training without manual annotation. We leverage Large Language Models (LLMs) to generate joint embeddings of reference images and modification texts, facilitating deeper multimodal fusion. Additionally, we introduce Multi-Text CIR (MTCIR), a large-scale dataset comprising 3.4M samples, and refine existing CIR benchmarks (CIRR and Fashion-IQ) to enhance evaluation reliability. Experimental results demonstrate that CoLLM achieves state-of-the-art performance across multiple CIR benchmarks and settings. MTCIR yields competitive results, with up to 15% performance improvement. Our refined benchmarks provide more reliable evaluation metrics for CIR models, contributing to the advancement of this important field.
Abstract（参考訳）: Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。典型的なトレーニングデータは、参照画像、所望の修正のテキスト記述を含む三つ組と、取得するのに高価で時間がかかるターゲット画像からなる。 CIRデータセットの不足は、合成三重項を利用したゼロショットアプローチや、ユビキタスなWebcrawled Image-Captionペアによる視覚言語モデル(VLM)の活用につながった。しかし, 合成三重項は, スケールの制限, 多様性の欠如, 不自然な修正文に悩まされ, 画像キャプションペアは3重項データの欠如により, 複数モーダルクエリの同時埋め込み学習を妨げている。さらに、既存のアプローチは、高度な融合と視覚と言語モダリティの理解を必要とする複雑でニュアンスのある修正テキストに苦慮している。このような制限を効果的に対処するワンストップフレームワークであるCoLLMを紹介します。提案手法は,手動のアノテーションを使わずに教師付きトレーニングを行えるように,画像キャプチャペアからトリプレットをオンザフライで生成する。我々は,Large Language Models (LLMs) を用いて参照画像と修正テキストの結合埋め込みを生成し,より深いマルチモーダル融合を実現する。さらに、3.4Mサンプルからなる大規模データセットであるMulti-Text CIR(MTCIR)を導入し、評価信頼性を高めるために既存のCIRベンチマーク(CIRRとFashion-IQ)を改良する。実験の結果、CoLLMは複数のCIRベンチマークと設定で最先端のパフォーマンスを実現していることがわかった。 MTCIRは競争力があり、最大15%の性能向上がある。改良されたベンチマークは、より信頼性の高いCIRモデル評価指標を提供し、この重要な分野の発展に寄与する。

関連論文リスト

Automatic Synthesis of High-Quality Triplet Data for Composed Image Retrieval [19.520776313567737]
Composed Image Retrieval (CIR)は、マルチモーダル(image+text)クエリを使ってターゲット画像を取得することを目的としている。完全合成データセットであるComposeed Image Retrieval on High-quality Synthetic Triplets (CIRHS)とともに,自動三重項生成のためのスケーラブルパイプラインを提案する。
論文参考訳（メタデータ） (2025-07-08T13:24:05Z)
Scaling Prompt Instructed Zero Shot Composed Image Retrieval with Image-Only Data [39.17652541259225]
Composed Image Retrieval (CIR)は、テキストに付加された参照画像と一致する画像を取得するタスクである。画像とテキストのモダリティを効果的に組み合わせた埋め込み型再構成アーキテクチャを提案する。 InstructCIRというモデルでは、CIRRおよびFashionIQデータセット上のゼロショット合成画像検索において、最先端の手法よりも優れています。
論文参考訳（メタデータ） (2025-04-01T14:03:46Z)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文参考訳（メタデータ） (2025-03-13T08:43:24Z)
CoTMR: Chain-of-Thought Multi-Scale Reasoning for Training-Free Zero-Shot Composed Image Retrieval [13.59418209417664]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、サンプルをトレーニングすることなく、合成クエリから情報を統合してターゲット画像を取得することを目的としている。我々は,ZS-CIRのためのトレーニングフリーフレームワークであるCoTMRを提案し,新しいChain-of-Thought(CoT)とマルチスケール推論を提案する。
論文参考訳（メタデータ） (2025-02-28T08:12:23Z)
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AGIの品質評価のための包括的なフレームワークである。中間画像記述を生成する構造付きマルチラウンド評価機構を含む。複数のベンチマークデータセットで実施された実験は、M3-AGIQAが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-02-21T03:05:45Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
SMIR: Efficient Synthetic Data Pipeline To Improve Multi-Image Reasoning [26.986638043619397]
マルチイメージ推論のための合成データ生成パイプラインであるSMiRを紹介する。我々は160Kの合成トレーニングサンプルを作成し、クローズドソースソリューションに代わる費用対効果を提供する。 SMiR-Benchは200種類の多彩な例からなるマルチイメージ推論ベンチマークである。
論文参考訳（メタデータ） (2025-01-07T10:21:21Z)
Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文参考訳（メタデータ） (2024-12-07T22:46:52Z)
Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文参考訳（メタデータ） (2024-09-07T21:52:58Z)
Pseudo-triplet Guided Few-shot Composed Image Retrieval [20.040511832864503]
Composed Image Retrieval (CIR)は、マルチモーダルクエリでターゲット画像を取得することを目的とした課題である。 PTG-FSCIRと呼ばれる2段階の擬似三重項誘導方式を提案する。最初の段階では、純画像データから擬似三重項を生成するために、注意型マスキングとキャプションに基づく擬似三重項生成法を提案する。第2段階では,3重項に基づく挑戦的CIR微調整法を提案し,擬似修正テキストに基づくサンプルの挑戦的スコア推定戦略を設計する。
論文参考訳（メタデータ） (2024-07-08T14:53:07Z)
Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文参考訳（メタデータ） (2024-04-23T21:00:22Z)
Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。大規模視覚言語モデル(VLM)を用いた最近の研究動向我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文参考訳（メタデータ） (2023-10-13T17:59:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。