論文の概要: STiTch: Semantic Transition and Transportation in Collaboration for Training-Free Zero-Shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2605.21261v1
- Date: Wed, 20 May 2026 14:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.736755
- Title: STiTch: Semantic Transition and Transportation in Collaboration for Training-Free Zero-Shot Composed Image Retrieval
- Title(参考訳): STiTch: ゼロショット合成画像検索のための協調作業における意味的遷移と移動
- Authors: Miaoge Li, Dongsheng Wang, Zening Sun, Jinsen Zhang, Wenhan Luo, Jingcai Guo,
- Abstract要約: 訓練なしゼロショット合成画像検索モデルは研究の関心が高まっている。
最近の進歩は、期待されるターゲットキャプションの生成に焦点を当てている。
トレーニング不要なゼロショットCIRタスクのための協調フレームワークにセマンティック・トランジションとトランスポーテーションを導入する。
- 参考スコア(独自算出の注目度): 38.107904166193364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training-free zero-shot composed image retrieval models are recently gaining increasing research interest due to their generalizability and flexibility in unseen multimodal retrieval. Recent LLM-based advances focus on generating the expected target caption by exploring the compositional ability behind the LLMs. Although efficient, we find that 1) the generated captions tend to introduce unexpected features from the reference image due to the semantic gap between the input image and text modification, where the image contains much more details than the text; 2) the point-to-point alignment during the retrieval stage fails to capture diverse compositions. To address these challenges, we introduce a novel Semantic Transition and Transportation in collaboration framework for training-free zero-shot CIR tasks. Specifically, given the composed caption inferred by an LLM, we aim to refine it through a transition vector in the embedding space and make it closer to the target image. Combining LLMs with user instruction, the refined caption concentrates more on the core modification intent and thus filters out unnecessary noise. Moreover, to explore diverse alignment during the retrieval stage, we model the caption and image as discrete distributions and reformulate the retrieval task as a set-to-set alignment task. Finally, a bidirectional transportation distance is developed to consider fine-grained alignments across modalities and calculate the retrieval score. Extensive experiments demonstrate that our method can be general, effective, and beneficial for many CIR tasks.
- Abstract(参考訳): トレーニング不要なゼロショット合成画像検索モデルは、近ごろ、その一般化性と、目に見えないマルチモーダル検索の柔軟性により、研究の関心が高まっている。
LLMの最近の進歩は、LLMの背後にある構成能力を探究することによって、期待されるターゲットキャプションの生成に焦点を当てている。
効率的ではあるが、私たちはそれを見つける。
1) 生成されたキャプションは,入力画像とテキスト修正のセマンティックな違いにより,参照画像から予期せぬ特徴を導入する傾向にある。
2) 検索段階におけるポイント・ツー・ポイントのアライメントは, 多様な構成の取得に失敗する。
これらの課題に対処するために、トレーニング不要なゼロショットCIRタスクのための協調フレームワークに、セマンティック・トランジションとトランスポーテーションを導入する。
具体的には, LLM で推定される合成キャプションを考慮し, 埋め込み空間の遷移ベクトルを用いて改良し, 対象画像に近づけることを目的とする。
LLMとユーザインストラクションを組み合わせることで、改良されたキャプションはコア修正の意図をより集中させ、不要なノイズを除去する。
さらに,検索段階における多彩なアライメントを探索するために,キャプションとイメージを離散分布としてモデル化し,検索タスクをセット・ツー・セットアライメントタスクとして再構成する。
最後に、モーダル間の微粒なアライメントを考慮し、検索スコアを算出するために、双方向輸送距離を開発する。
大規模な実験により,本手法は多くのCIRタスクに対して汎用的,効果的,有益であることが実証された。
関連論文リスト
- Decoupling Endpoint and Semantic Transition Learning for Zero-Shot Composed Image Retrieval [61.75093083322011]
DeCIRは推論複雑性を増大させることなくプロジェクションベースのZS-CIRを一貫して改善することを示す。
CIRR、CIRCO、FashionIQ、GeneCISの実験により、DeCIRは推論複雑性を増大させることなく、射影ベースのZS-CIRを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-05-08T18:55:41Z) - MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval [23.52156477012636]
Composed Image Retrieval (CIR) は、参照画像と修正されたテキストに基づいてターゲット画像を取得することを目的としている。
CIRのためのMCoT-MVS(Multi-level Vision Selection)を提案する。
論文 参考訳(メタデータ) (2026-03-18T04:49:19Z) - SQUARE: Semantic Query-Augmented Fusion and Efficient Batch Reranking for Training-free Zero-Shot Composed Image Retrieval [2.624097337766623]
Composed Image Retrieval (CIR) は、ユーザが指定したテキスト修正を取り入れつつ、参照画像の視覚的内容を保存するターゲット画像の検索を目的としている。
ZS-CIRを強化するために,MLLM(Multimodal Large Language Models)を利用した新しい2段階学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-30T14:41:24Z) - MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。
1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。
テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T07:49:31Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。
実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。
命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T22:46:52Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。