論文の概要: MELT: Improve Composed Image Retrieval via the Modification Frequentation-Rarity Balance Network
- arxiv url: http://arxiv.org/abs/2603.29291v1
- Date: Tue, 31 Mar 2026 05:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.180234
- Title: MELT: Improve Composed Image Retrieval via the Modification Frequentation-Rarity Balance Network
- Title(参考訳): MELT:Modification Frequentation-Rarity Balance Networkによる合成画像検索の改善
- Authors: Guozhi Qiu, Zhiwei Chen, Zixu Li, Qinlei Huang, Zhiheng Fu, Xuemeng Song, Yupeng Hu,
- Abstract要約: Composed Image Retrieval (CIR)は、参照画像と修正テキストをクエリとして使用して、ターゲット画像を取得する。
CIR法は,(1)希少なサンプル陰性化につながる周波数バイアス,(2)強い負のサンプルやノイズからの干渉に対する類似性スコアの感受性の2つの限界に直面している。
本稿では,修正フレレントレーション・リアリティ・バランス・ネトワークMELTを提案する。
- 参考スコア(独自算出の注目度): 34.61012653883818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) uses a reference image and a modification text as a query to retrieve a target image satisfying the requirement of ``modifying the reference image according to the text instructions''. However, existing CIR methods face two limitations: (1) frequency bias leading to ``Rare Sample Neglect'', and (2) susceptibility of similarity scores to interference from hard negative samples and noise. To address these limitations, we confront two key challenges: asymmetric rare semantic localization and robust similarity estimation under hard negative samples. To solve these challenges, we propose the Modification frEquentation-rarity baLance neTwork MELT. MELT assigns increased attention to rare modification semantics in multimodal contexts while applying diffusion-based denoising to hard negative samples with high similarity scores, enhancing multimodal fusion and matching. Extensive experiments on two CIR benchmarks validate the superior performance of MELT. Codes are available at https://github.com/luckylittlezhi/MELT.
- Abstract(参考訳): Composed Image Retrieval (CIR)は、参照画像と修正テキストをクエリとして使用し、「テキスト命令に従って参照画像を変更する」という要求を満たすターゲット画像を取得する。
しかし, 既存のCIR法では, 1) 周波数バイアスが 'Rare Sample Neglect'' につながること, (2) 強い負のサンプルやノイズからの干渉に対する類似度スコアの感受性の2つの制限に直面している。
これらの制約に対処するため、非対称な非対称な意味的局所化と強陰性サンプルによる頑健な類似性推定という2つの重要な課題に直面した。
これらの課題を解決するために、修正フレアリティのbaLance neTwork MELTを提案する。
MELTは、多モーダルな文脈における希少な修正セマンティクスに注意を向け、高い類似度スコアを持つ強い負のサンプルに拡散に基づくデノナイジングを適用し、マルチモーダル融合とマッチングを強化する。
2つのCIRベンチマークの大規模な実験により、MELTの優れた性能が検証された。
コードはhttps://github.com/luckylittlezhi/MELTで公開されている。
関連論文リスト
- HINT: Composed Image Retrieval with Dual-path Compositional Contextualized Network [32.657095507841085]
Composed Image Retrieval (CIR) は難しい画像検索パラダイムである。
本稿では,文脈的符号化を行い,マッチングと非マッチングの類似性の違いを増幅する2つのpatHsItional coNtextualized neTwork (HINT)を提案する。
我々のHINTモデルは、2つのCIRベンチマークデータセットにまたがるすべてのメトリクスで最適なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T12:01:40Z) - NCL-CIR: Noise-aware Contrastive Learning for Composed Image Retrieval [16.460121977322224]
Composed Image Retrieval (CIR)は、画像と修正テキストを組み合わせてターゲットをピンポイントするマルチモーダルクエリを用いて、ターゲット画像の検索を試みる。
ペアは、不正確な修正テキスト、品質の低いターゲット画像、アノテーションエラーなどの問題により、部分的にあるいは完全に一致しないことが多い。
重み補償ブロック (WCB) と雑音対フィルタブロック (NFB) の2つの主要な構成要素からなるCIR (NCL-CIR) のためのノイズ対応コントラスト学習法を提案する。
論文 参考訳(メタデータ) (2025-04-06T03:27:23Z) - Retinex-RAWMamba: Bridging Demosaicing and Denoising for Low-Light RAW Image Enhancement [71.13353154514418]
低照度画像の強化、特に生ドメインからsRGBドメインへのマッピングのようなクロスドメインタスクは、依然として大きな課題である。
RAWMambaと呼ばれる低照度RAW画像用にカスタマイズされた新しいMambaベースの手法を提案する。
低照度RAW画像の高精細化を図り、復調を施すことにより、高精細化を実現する。
論文 参考訳(メタデータ) (2024-09-11T06:12:03Z) - Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment
for Markup-to-Image Generation [15.411325887412413]
本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。
FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。
異なるドメインの4つのベンチマークデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-08-02T13:43:03Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。