論文の概要: TEMA: Anchor the Image, Follow the Text for Multi-Modification Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2604.21806v2
- Date: Fri, 24 Apr 2026 09:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 13:34:22.120866
- Title: TEMA: Anchor the Image, Follow the Text for Multi-Modification Composed Image Retrieval
- Title(参考訳): TEMA:画像のアンカー、マルチ修正構成画像検索用テキストのフォロー
- Authors: Zixu Li, Yupeng Hu, Zhiheng Fu, Zhiwei Chen, Yongqi Li, Liqiang Nie,
- Abstract要約: Composed Image Retrieval (CIR)により、ユーザーは参照画像と修正テキストからなるマルチモーダルクエリを使用してターゲットイメージを検索できる。
我々はM-FashionIQとM-CIRRという2つの命令リッチなマルチモーフィケーションデータセットを構築した。
また、マルチモーフィケーション用に設計された最初のCIRフレームワークであるTEMAも提案する。
- 参考スコア(独自算出の注目度): 61.77510161631665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed Image Retrieval (CIR) is an important image retrieval paradigm that enables users to retrieve a target image using a multimodal query that consists of a reference image and modification text. Although research on CIR has made significant progress, prevailing setups still rely simple modification texts that typically cover only a limited range of salient changes, which induces two limitations highly relevant to practical applications, namely Insufficient Entity Coverage and Clause-Entity Misalignment. In order to address these issues and bring CIR closer to real-world use, we construct two instruction-rich multi-modification datasets, M-FashionIQ and M-CIRR. In addition, we propose TEMA, the Text-oriented Entity Mapping Architecture, which is the first CIR framework designed for multi-modification while also accommodating simple modifications. Extensive experiments on four benchmark datasets demonstrate that TEMA's superiority in both original and multi-modification scenarios, while maintaining an optimal balance between retrieval accuracy and computational efficiency. Our codes and constructed multi-modification dataset (M-FashionIQ and M-CIRR) are available at https://github.com/lee-zixu/ACL26-TEMA/.
- Abstract(参考訳): Composed Image Retrieval (CIR)は、ユーザが参照画像と修正テキストからなるマルチモーダルクエリを使用してターゲットイメージを検索できる重要な画像検索パラダイムである。
CIRの研究は大きな進歩を遂げているが、一般的な設定は単純な修正テキストに頼っている。
これらの問題に対処し、CIRを現実世界に近づけるために、M-FashionIQとM-CIRRという2つの命令リッチなマルチモーフィフィケーションデータセットを構築した。
さらに,テキスト指向エンティティマッピングアーキテクチャであるTEMAを提案する。
4つのベンチマークデータセットの大規模な実験は、TEMAが元のシナリオとマルチモーフィケーションシナリオの両方で優れていることを示し、精度と計算効率の最適なバランスを維持している。
我々のコードと構築したM-FashionIQとM-CIRRはhttps://github.com/lee-zixu/ACL26-TEMA/で利用可能です。
関連論文リスト
- HINT: Composed Image Retrieval with Dual-path Compositional Contextualized Network [32.657095507841085]
Composed Image Retrieval (CIR) は難しい画像検索パラダイムである。
本稿では,文脈的符号化を行い,マッチングと非マッチングの類似性の違いを増幅する2つのpatHsItional coNtextualized neTwork (HINT)を提案する。
我々のHINTモデルは、2つのCIRベンチマークデータセットにまたがるすべてのメトリクスで最適なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T12:01:40Z) - Hierarchical Scheduling for Multi-Vector Image Retrieval [17.023146933530484]
HiMIRは画像検索のための効率的なスケジューリングフレームワークである。
本稿では,画像オブジェクトのアライメントを高めるために,複数の中間粒度を用いた新しい階層的パラダイムを提案する。
実験により,HMIRは精度を向上するだけでなく,既存のMVRシステムに比べて最大3.5倍の計算量を削減できることがわかった。
論文 参考訳(メタデータ) (2025-10-10T03:36:18Z) - Recurrence Meets Transformers for Universal Multimodal Retrieval [59.92546492752452]
ReT-2は画像とテキストの両方からなるマルチモーダルクエリをサポートする統合検索モデルである。
検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。
検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2025-09-10T18:00:29Z) - FineCIR: Explicit Parsing of Fine-Grained Modification Semantics for Composed Image Retrieval [48.63758678240123]
Composed Image Retrieval (CIR)は、参照画像と修正テキストからなるマルチモーダルクエリによる画像検索を容易にする。
既存のCIRデータセットは主に粗粒度修正テキスト(CoarseMT)を使用し、粗粒度検索意図を不適切にキャプチャする。
我々は、不正確な正のサンプルを最小化し、修正意図を正確に識別するCIRシステムの能力を向上する頑健なCIRデータアノテーションパイプラインを開発する。
論文 参考訳(メタデータ) (2025-03-27T09:34:21Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。
実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。
命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T22:46:52Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。