論文の概要: DetailFusion: A Dual-branch Framework with Detail Enhancement for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2505.17796v1
- Date: Fri, 23 May 2025 12:15:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.051171
- Title: DetailFusion: A Dual-branch Framework with Detail Enhancement for Composed Image Retrieval
- Title(参考訳): DetailFusion: 合成画像検索のための詳細拡張を備えたデュアルブランチフレームワーク
- Authors: Yuxin Yang, Yinan Zhou, Yuxin Chen, Ziqi Zhang, Zongyang Ma, Chunfeng Yuan, Bing Li, Lin Song, Jun Gao, Peng Li, Weiming Hu,
- Abstract要約: Composed Image Retrieval (CIR) は、参照画像と修正テキストを組み合わせたクエリとして、ギャラリーからターゲットイメージを取得することを目的としている。
最近のアプローチでは、2つのモダリティからのグローバル情報のバランスに焦点が当てられ、クエリを検索のための統一的な機能にエンコードする。
DetailFusionは,グローバルおよび詳細な粒度の情報を効果的にコーディネートする,新しいデュアルブランチフレームワークである。
- 参考スコア(独自算出の注目度): 51.30915462824879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) aims to retrieve target images from a gallery based on a reference image and modification text as a combined query. Recent approaches focus on balancing global information from two modalities and encode the query into a unified feature for retrieval. However, due to insufficient attention to fine-grained details, these coarse fusion methods often struggle with handling subtle visual alterations or intricate textual instructions. In this work, we propose DetailFusion, a novel dual-branch framework that effectively coordinates information across global and detailed granularities, thereby enabling detail-enhanced CIR. Our approach leverages atomic detail variation priors derived from an image editing dataset, supplemented by a detail-oriented optimization strategy to develop a Detail-oriented Inference Branch. Furthermore, we design an Adaptive Feature Compositor that dynamically fuses global and detailed features based on fine-grained information of each unique multimodal query. Extensive experiments and ablation analyses not only demonstrate that our method achieves state-of-the-art performance on both CIRR and FashionIQ datasets but also validate the effectiveness and cross-domain adaptability of detail enhancement for CIR.
- Abstract(参考訳): Composed Image Retrieval (CIR) は、参照画像と修正テキストを組み合わせたクエリとして、ギャラリーからターゲットイメージを取得することを目的としている。
最近のアプローチでは、2つのモダリティからのグローバル情報のバランスに焦点が当てられ、クエリを検索のための統一的な機能にエンコードする。
しかし、細かな細部への注意が不足しているため、これらの粗い融合法は微妙な視覚的変化や複雑なテキスト命令を扱うのにしばしば苦労する。
本研究では,世界規模および詳細な粒度の情報を効果的にコーディネートし,より詳細なCIRを実現するための,新しいデュアルブランチフレームワークであるDetailFusionを提案する。
提案手法では,画像編集データセットから得られた原子の詳細変化を,詳細指向の最適化戦略で補足し,詳細指向の推論ブランチを開発する。
さらに,各一意なマルチモーダルクエリの詳細な情報に基づいて,グローバルかつ詳細な機能を動的に融合する適応的特徴合成器を設計する。
この手法がCIRRとFashionIQの両方のデータセットにおける最先端性能を達成するだけでなく、CIRにおけるディテールエンハンスメントの有効性とクロスドメイン適応性も検証した。
関連論文リスト
- SAM-REF: Introducing Image-Prompt Synergy during Interaction for Detail Enhancement in the Segment Anything Model [24.774935133996074]
軽量精細機を用いて画像とプロンプトを完全に統合する2段階精細化フレームワークを提案する。
我々のSAM-REFモデルは、効率を損なうことなくセグメンテーション品質に関するほとんどの指標において、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-08-21T11:18:35Z) - Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [60.20318058777603]
一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。
そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T04:06:39Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。