論文の概要: DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2603.04037v1
- Date: Wed, 04 Mar 2026 13:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.317641
- Title: DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval
- Title(参考訳): DQE-CIR:構成画像検索における学習可能な属性重みと相対負サンプリングによる固有クエリ埋め込み
- Authors: Geon Park, Ji-Hoon Park, Seong-Whan Lee,
- Abstract要約: 合成画像検索(CIR)は、参照画像と、意図した変更を特定する修正テキストとを共同で解釈することにより、対象画像を検索するタスクに対処する。
既存のほとんどの手法は、基底の真理像を唯一の正の例として扱い、残りの全ての画像を負の例として扱う対照的な学習フレームワークの上に構築されている。
学習可能な属性重みとターゲットの相対的負サンプリングによるクエリ埋め込みを提案する。
- 参考スコア(独自算出の注目度): 53.482391830683014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed image retrieval (CIR) addresses the task of retrieving a target image by jointly interpreting a reference image and a modification text that specifies the intended change. Most existing methods are still built upon contrastive learning frameworks that treat the ground truth image as the only positive instance and all remaining images as negatives. This strategy inevitably introduces relevance suppression, where semantically related yet valid images are incorrectly pushed away, and semantic confusion, where different modification intents collapse into overlapping regions of the embedding space. As a result, the learned query representations often lack discriminativeness, particularly at fine-grained attribute modifications. To overcome these limitations, we propose distinctive query embeddings through learnable attribute weights and target relative negative sampling (DQE-CIR), a method designed to learn distinctive query embeddings by explicitly modeling target relative relevance during training. DQE-CIR incorporates learnable attribute weighting to emphasize distinctive visual features conditioned on the modification text, enabling more precise feature alignment between language and vision. Furthermore, we introduce target relative negative sampling, which constructs a target relative similarity distribution and selects informative negatives from a mid-zone region that excludes both easy negatives and ambiguous false negatives. This strategy enables more reliable retrieval for fine-grained attribute changes by improving query discriminativeness and reducing confusion caused by semantically similar but irrelevant candidates.
- Abstract(参考訳): 合成画像検索(CIR)は、参照画像と、意図した変更を特定する修正テキストとを共同で解釈することにより、対象画像を検索するタスクに対処する。
既存のほとんどの手法は、基底の真理像を唯一の正の例として扱い、残りの全ての画像を負の例として扱う対照的な学習フレームワークの上に構築されている。
この戦略は必然的に、意味的に関連があるが有効な画像が誤ってプッシュされる関連抑制と、異なる修正意図が埋め込み空間の重複する領域に崩壊する意味混乱を導入している。
結果として、学習されたクエリ表現は、特にきめ細かい属性修正において差別性を欠くことが多い。
これらの制限を克服するために,学習可能な属性重みと目標負のサンプリング(DQE-CIR)による特異なクエリ埋め込みを提案する。
DQE-CIRには学習可能な属性重み付けが組み込まれており、修正テキストに条件付けられた視覚的特徴を強調し、言語と視覚の間のより正確な特徴整合を可能にする。
さらに,対象の相対的類似度分布を構築し,容易な負とあいまいな偽の両方を除外した中間領域から情報的負を抽出するターゲット相対的負サンプリングを導入する。
この戦略は、クエリの識別性を改善し、意味論的に類似しているが無関係な候補によって引き起こされる混乱を減らすことにより、より信頼性の高い属性変化の検索を可能にする。
関連論文リスト
- QuRe: Query-Relevant Retrieval through Hard Negative Sampling in Composed Image Retrieval [24.699637275626998]
Composed Image Retrieval (CIR)は、参照画像に基づいて関連画像を検索し、所望の修正を記述したテキストを添付する。
この制限は、ほとんどの手法が対照的な学習を用いて、対象画像を正のものとして扱い、バッチ内の他のすべての画像を負のものとして扱うために生じる。
本稿では,疑似否定を減らすために報酬モデルの対象を最適化する,ハードネガティブサンプリング(QuRe)によるクエリ関連検索を提案する。
論文 参考訳(メタデータ) (2025-07-16T17:06:33Z) - IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis [46.502962768034166]
Zero-shot Referring Imageは、トレーニングや微調整なしで参照式に最も適したインスタンスマスクを特定する。
従来のCLIPモデルでは、物体の相対的な空間的関係を識別する能力が顕著に低下していた。
IteRPrimEは従来の最先端のゼロショットメソッドよりも優れており、特にドメイン外のシナリオでは優れている。
論文 参考訳(メタデータ) (2025-03-02T15:19:37Z) - DualFocus: Integrating Plausible Descriptions in Text-based Person Re-identification [6.381155145404096]
我々は、パーソナライゼーションタスクにおける視覚言語モデルの解釈精度を高めるために、もっともらしい記述を統合する統合フレームワークであるDualFocusを紹介する。
視覚的およびテキスト的埋め込みの粗いアライメントときめ細かなアライメントのバランスを実現するために,DTS(Dynamic Tokenwise similarity)損失を提案する。
The comprehensive experiment on CUHK-PEDES, ICFG-PEDES, and RSTPReid, DualFocus shows superior performance than the State-of-the-art method。
論文 参考訳(メタデータ) (2024-05-13T04:21:00Z) - Counterfactual Reasoning for Multi-Label Image Classification via Patching-Based Training [84.95281245784348]
共起関係の過度な強調は、モデルの過度な問題を引き起こす可能性がある。
本稿では,対象対象物とその共起対象物による相関特性を媒介者とみなすことができることを示す因果推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:13:24Z) - LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations [4.680881326162484]
画像分類やオブジェクト検出などの下流タスクにおける教師あり学習よりも優れている。
対照的な学習における一般的な強化手法は、ランダムな収穫とそれに続くリサイズである。
本稿では,新しいインスタンス識別手法と適応型損失関数を用いたフレームワークであるLeOCLRを紹介する。
論文 参考訳(メタデータ) (2024-03-11T15:33:32Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Exploring Negatives in Contrastive Learning for Unpaired Image-to-Image
Translation [12.754320302262533]
我々は、パッチをスペーシングし、ランキング付けすることで、アンペア画像から画像への変換(PUT)のための新しい負のプルーニング技術を導入する。
提案アルゴリズムは効率的で柔軟で,対応するパッチ間で本質的な情報を安定的に学習することができる。
論文 参考訳(メタデータ) (2022-04-23T08:31:18Z) - A Contrastive Objective for Learning Disentangled Representations [32.36217153362305]
機密属性や望ましくない属性に不変な画像の学習表現は、バイアス除去やクロスドメイン検索を含む多くのタスクにおいて重要である。
我々は、不変表現を保証するために、新しいドメインワイドコントラスト目的を提案する新しいアプローチを提案する。
広範な評価において,提案手法は表現の不変性,表現の伝達性,学習速度の点で,最先端の手法を確実に上回っている。
論文 参考訳(メタデータ) (2022-03-21T18:56:36Z) - A Theory-Driven Self-Labeling Refinement Method for Contrastive
Representation Learning [111.05365744744437]
教師なしのコントラスト学習は、正のイメージの作物と、負のイメージの作物とをラベル付けする。
本研究は, コントラスト学習において, 不正確なラベル割り当てがセマンティック・インスタンス識別の一般化を著しく損なうことを最初に証明する。
この理論に触発されて、コントラスト学習のための新しい自己ラベル改善手法を提案する。
論文 参考訳(メタデータ) (2021-06-28T14:24:52Z) - Semi-supervised Semantic Segmentation with Directional Context-aware
Consistency [66.49995436833667]
我々は、ラベル付きデータの小さなセットに、全くラベル付けされていない画像のより大きなコレクションを提供する半教師付きセグメンテーション問題に焦点をあてる。
好ましいハイレベル表現は、自己認識を失わずにコンテキスト情報をキャプチャするべきである。
我々は,DCロス(Directional Contrastive Loss)を画素対ピクセルの整合性を達成するために提示する。
論文 参考訳(メタデータ) (2021-06-27T03:42:40Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。