論文の概要: G-MIXER: Geodesic Mixup-based Implicit Semantic Expansion and Explicit Semantic Re-ranking for Zero-Shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2604.14710v1
- Date: Thu, 16 Apr 2026 07:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.774832
- Title: G-MIXER: Geodesic Mixup-based Implicit Semantic Expansion and Explicit Semantic Re-ranking for Zero-Shot Composed Image Retrieval
- Title(参考訳): G-MIXER:ゼロショット合成画像検索のための測地混合型インプリシトセマンティック展開と明示的セマンティック再ランク
- Authors: Jiyoung Lim, Heejae Yang, Jee-Hyong Lee,
- Abstract要約: Composed Image Retrieval (CIR) は、参照画像と対応する修正テキストを統合することで、対象画像を検索することを目的としている。
近年のZero-Shot CIR (ZS-CIR) 法では,Multimodal Large Language Models (MLLM) を用いて詳細な目標記述を生成する。
そこで本研究では,ZS-CIRに対して,Geodesic MixupをベースとしたImplicitセマンティックeXpansionとExplicitセマンティックリグレードの新たなトレーニングフリー手法を提案する。
- 参考スコア(独自算出の注目度): 16.544211828408592
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Composed Image Retrieval (CIR) aims to retrieve target images by integrating a reference image with a corresponding modification text. CIR requires jointly considering the explicit semantics specified in the query and the implicit semantics embedded within its bi-modal composition. Recent training-free Zero-Shot CIR (ZS-CIR) methods leverage Multimodal Large Language Models (MLLMs) to generate detailed target descriptions, converting the implicit information into explicit textual expressions. However, these methods rely heavily on the textual modality and fail to capture the fuzzy retrieval nature that requires considering diverse combinations of candidates. This leads to reduced diversity and accuracy in retrieval results. To address this limitation, we propose a novel training-free method, Geodesic Mixup-based Implicit semantic eXpansion and Explicit semantic Re-ranking for ZS-CIR (G-MIXER). G-MIXER constructs composed query features that reflect the implicit semantics of reference image-text pairs through geodesic mixup over a range of mixup ratios, and builds a diverse candidate set. The generated candidates are then re-ranked using explicit semantics derived from MLLMs, improving both retrieval diversity and accuracy. Our proposed G-MIXER achieves state-of-the-art performance across multiple ZS-CIR benchmarks, effectively handling both implicit and explicit semantics without additional training. Our code will be available at https://github.com/maya0395/gmixer.
- Abstract(参考訳): Composed Image Retrieval (CIR) は、参照画像と対応する修正テキストを統合することで、対象画像を検索することを目的としている。
CIRは、クエリで指定された明示的なセマンティクスと、そのバイモーダル構成に埋め込まれた暗黙的なセマンティクスを共同で検討する必要がある。
近年のZero-Shot CIR (ZS-CIR) 法では,マルチモーダル大言語モデル (MLLM) を用いて詳細な目標記述を生成し,暗黙の情報を明示的なテキスト表現に変換する。
しかし,これらの手法はテキストのモダリティに大きく依存しており,多種多様な候補の組み合わせを検討する必要があるファジィ検索の性質を捉えることができない。
これにより、検索結果の多様性と精度が低下する。
この制限に対処するため,ZS-CIR(G-MIXER)のためのジオデシック・ミックスアップに基づくインプリシット・セマンティックeXpansionとエクスプリシット・セマンティック・リグレードを提案する。
G-MIXERは、ジオデシックな混合による参照画像とテキストのペアの暗黙的な意味を反映したクエリ機能を構築し、多様な候補セットを構築している。
生成された候補はMLLMから派生した明示的な意味論を用いて再ランク付けされ、検索の多様性と精度が向上する。
提案するG-MIXERは,複数のZS-CIRベンチマークにおける最先端性能を実現し,暗黙的および明示的セマンティクスの両方を追加トレーニングなしで効果的に処理する。
私たちのコードはhttps://github.com/maya0395/gmixer.comで利用可能です。
関連論文リスト
- SQUARE: Semantic Query-Augmented Fusion and Efficient Batch Reranking for Training-free Zero-Shot Composed Image Retrieval [2.624097337766623]
Composed Image Retrieval (CIR) は、ユーザが指定したテキスト修正を取り入れつつ、参照画像の視覚的内容を保存するターゲット画像の検索を目的としている。
ZS-CIRを強化するために,MLLM(Multimodal Large Language Models)を利用した新しい2段階学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-30T14:41:24Z) - MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - CoTMR: Chain-of-Thought Multi-Scale Reasoning for Training-Free Zero-Shot Composed Image Retrieval [13.59418209417664]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、サンプルをトレーニングすることなく、合成クエリから情報を統合してターゲット画像を取得することを目的としている。
我々は,ZS-CIRのためのトレーニングフリーフレームワークであるCoTMRを提案し,新しいChain-of-Thought(CoT)とマルチスケール推論を提案する。
論文 参考訳(メタデータ) (2025-02-28T08:12:23Z) - SQ-GAN: Semantic Image Communications Using Masked Vector Quantization [54.35918290143049]
本研究はSQ-GAN(Semantically Masked Vector Quantized Generative Adversarial Network)を紹介する。
これは、セマンティック駆動画像符号化とベクトル量子化を統合して、セマンティック/タスク指向通信のための画像圧縮を最適化する新しいアプローチである。
SQ-GANはJPEG2000、BPG、ディープラーニングベースの手法など、最先端の画像圧縮方式よりも優れています。
論文 参考訳(メタデータ) (2025-02-13T17:35:57Z) - Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Semantic-aware Representation Learning for Homography Estimation [28.70450397793246]
本研究では,検出不要な特徴マッチング手法であるSRMatcherを提案する。
マッチングペアにおける意味的不整合に起因するエラーを減らすことで、提案したSRMatcherはより正確で現実的な結果をもたらすことができる。
論文 参考訳(メタデータ) (2024-07-18T08:36:28Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。