論文の概要: FAR-Net: Multi-Stage Fusion Network with Enhanced Semantic Alignment and Adaptive Reconciliation for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2507.12823v1
- Date: Thu, 17 Jul 2025 06:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.367445
- Title: FAR-Net: Multi-Stage Fusion Network with Enhanced Semantic Alignment and Adaptive Reconciliation for Composed Image Retrieval
- Title(参考訳): FAR-Net: 合成画像検索のための拡張セマンティックアライメントと適応リコンシリエーションを備えたマルチステージフュージョンネットワーク
- Authors: Jeong-Woo Park, Young-Eun Kim, Seong-Whan Lee,
- Abstract要約: セマンティックアライメントとアダプティブアライメントを備えた多段階融合フレームワークであるFAR-Netを提案する。
CIRRとFashionIQの実験は、一貫性のあるパフォーマンス向上を示し、Recall@1を2.4%改善し、Recall@50を1.04%改善した。
- 参考スコア(独自算出の注目度): 36.03123811283016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed image retrieval (CIR) is a vision language task that retrieves a target image using a reference image and modification text, enabling intuitive specification of desired changes. While effectively fusing visual and textual modalities is crucial, existing methods typically adopt either early or late fusion. Early fusion tends to excessively focus on explicitly mentioned textual details and neglect visual context, whereas late fusion struggles to capture fine-grained semantic alignments between image regions and textual tokens. To address these issues, we propose FAR-Net, a multi-stage fusion framework designed with enhanced semantic alignment and adaptive reconciliation, integrating two complementary modules. The enhanced semantic alignment module (ESAM) employs late fusion with cross-attention to capture fine-grained semantic relationships, while the adaptive reconciliation module (ARM) applies early fusion with uncertainty embeddings to enhance robustness and adaptability. Experiments on CIRR and FashionIQ show consistent performance gains, improving Recall@1 by up to 2.4% and Recall@50 by 1.04% over existing state-of-the-art methods, empirically demonstrating that FAR Net provides a robust and scalable solution to CIR tasks.
- Abstract(参考訳): 合成画像検索(CIR)は、参照画像と修正テキストを用いて対象画像を検索する視覚言語タスクであり、望まれる変更の直感的な仕様化を可能にする。
視覚的モダリティとテキスト的モダリティを効果的に融合させることは重要であるが、既存の手法は通常、早期または後期の融合を採用する。
初期の融合は明示されたテキストの詳細に集中し、視覚的コンテキストを無視する傾向があるが、後期融合は画像領域とテキストトークン間の微妙なセマンティックアライメントを捉えるのに苦労する。
これらの問題に対処するために,FAR-Netを提案する。FAR-Netは,意味的アライメントと適応的調停を改良し,2つの相補的なモジュールを統合した多段階融合フレームワークである。
拡張セマンティックアライメントモジュール(ESAM)は、密接なセマンティックな関係を捉えるために、クロスアテンションとレイトフュージョンを用いており、一方アダプティブセマンティックアライメントモジュール(ARM)は、堅牢性と適応性を高めるために不確実な埋め込みと早期融合を適用している。
CIRRとFashionIQの実験は、一貫性のあるパフォーマンス向上を示し、Recall@1を2.4%改善し、Recall@50を1.04%改善した。
関連論文リスト
- OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。
1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。
本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文 参考訳(メタデータ) (2025-07-08T03:27:46Z) - Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval [15.503629941274621]
本研究では,Representation Discrepancy Bridging (RDB) 法を提案し,Remote Image-Text Retrieval (RSITR) タスクを提案する。
RSICDとRSITMDデータセットの実験により、提案手法はmR測定値の6%-11%の改善を達成している。
論文 参考訳(メタデータ) (2025-05-22T14:59:30Z) - TMCIR: Token Merge Benefits Composed Image Retrieval [13.457620649082504]
Composed Image Retrieval (CIR)は、参照イメージと所望の修正を記述したテキストを組み合わせたマルチモーダルクエリを使用して、ターゲットイメージを検索する。
現在のCIRのクロスモーダルな特徴融合アプローチは、意図的解釈に固有のバイアスを示す。
本稿では、2つの重要な革新を通じて合成画像の検索を促進する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-15T09:14:04Z) - OCCO: LVM-guided Infrared and Visible Image Fusion Framework based on Object-aware and Contextual COntrastive Learning [19.22887628187884]
オブジェクト認識とコンテキスト協調学習を備えた新しいLVM誘導型融合フレームワークを提案する。
また、モダリティ差による融合画像における情報衝突を解決するために、新しい特徴相互作用融合ネットワークを設計する。
提案手法の有効性を検証し、下流視覚課題においても例外的な性能を示す。
論文 参考訳(メタデータ) (2025-03-24T12:57:23Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文 参考訳(メタデータ) (2023-03-23T15:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。