論文の概要: Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization
- arxiv url: http://arxiv.org/abs/2211.07394v6
- Date: Tue, 30 Jan 2024 05:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 20:08:16.464536
- Title: Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization
- Title(参考訳): 多粒度不確かさ正規化によるテキストフィードバックによる合成画像検索
- Authors: Yiyang Chen, Zhedong Zheng, Wei Ji, Leigang Qu, Tat-Seng Chua
- Abstract要約: 粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
- 参考スコア(独自算出の注目度): 73.04187954213471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate composed image retrieval with text feedback. Users gradually
look for the target of interest by moving from coarse to fine-grained feedback.
However, existing methods merely focus on the latter, i.e., fine-grained
search, by harnessing positive and negative pairs during training. This
pair-based paradigm only considers the one-to-one distance between a pair of
specific points, which is not aligned with the one-to-many coarse-grained
retrieval process and compromises the recall rate. In an attempt to fill this
gap, we introduce a unified learning approach to simultaneously modeling the
coarse- and fine-grained retrieval by considering the multi-grained
uncertainty. The key idea underpinning the proposed method is to integrate
fine- and coarse-grained retrieval as matching data points with small and large
fluctuations, respectively. Specifically, our method contains two modules:
uncertainty modeling and uncertainty regularization. (1) The uncertainty
modeling simulates the multi-grained queries by introducing identically
distributed fluctuations in the feature space. (2) Based on the uncertainty
modeling, we further introduce uncertainty regularization to adapt the matching
objective according to the fluctuation range. Compared with existing methods,
the proposed strategy explicitly prevents the model from pushing away potential
candidates in the early stage, and thus improves the recall rate. On the three
public datasets, i.e., FashionIQ, Fashion200k, and Shoes, the proposed method
has achieved +4.03%, +3.38%, and +2.40% Recall@50 accuracy over a strong
baseline, respectively.
- Abstract(参考訳): テキストフィードバックによる合成画像検索について検討した。
ユーザは、粗いフィードバックから細かいフィードバックに移行することで、徐々に関心の対象を探します。
しかし、既存の方法は、訓練中に正のペアと負のペアを利用することで、後者、すなわちきめ細かい検索にのみ焦点を合わせている。
このペアベースのパラダイムは、一対の特定点間の一対一の距離のみを考慮し、一対一の粗い粗い検索プロセスと一致せず、リコール率を損なう。
このギャップを埋めるために,多粒度不確かさを考慮し,粗粒検索と細粒検索を同時にモデル化する統一学習手法を提案する。
提案手法を基盤とするキーアイデアは,データポイントと小変動点,大変動点のマッチングとして,細粒度検索と粗粒度検索を統合することである。
具体的には、不確実性モデリングと不確実性正規化の2つのモジュールを含む。
1)不確実性モデリングは,特徴空間に同一の分散変動を導入することで,多粒度クエリをシミュレートする。
2) 不確実性モデリングに基づいて,変動範囲に応じて一致目標を適応させる不確実性正規化を導入する。
既存手法と比較して, 提案手法では, モデルが早期に潜在的な候補を追い払うことを明示的に防止し, リコール率を向上させる。
fashioniq, fashion200k, shoesの3つのパブリックデータセットにおいて,提案手法はそれぞれ,強いベースラインに対して +4.03%, +3.38%, +2.40% recall@50 の精度を達成している。
関連論文リスト
- Cycle-Consistency Uncertainty Estimation for Visual Prompting based One-Shot Defect Segmentation [0.0]
産業的欠陥検出は伝統的に、既知の欠陥型の固定データセットに基づいて訓練された教師付き学習モデルに依存している。
視覚的プロンプトの最近の進歩は、提供された視覚的手がかりに基づいて、モデルが新しいカテゴリを適応的に推論できるようにすることによってソリューションを提供する。
本稿では,サイクル整合性による視覚刺激過程の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2024-09-21T02:25:32Z) - NubbleDrop: A Simple Way to Improve Matching Strategy for Prompted One-Shot Segmentation [2.2559617939136505]
マッチング戦略の有効性とロバスト性を高めるための,単純で訓練のない手法を提案する。
中心となる概念は、マッチングプロセス中にランダムに特徴チャネル(0に設定する)をドロップすることである。
この手法は、病理的なヌブルの破棄を模倣し、他の類似性コンピューティングのシナリオにシームレスに適用することができる。
論文 参考訳(メタデータ) (2024-05-19T08:00:38Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Modeling Multimodal Aleatoric Uncertainty in Segmentation with Mixture
of Stochastic Expert [24.216869988183092]
入力画像にあいまいさが存在する場合、セグメンテーションにおけるデータ独立不確実性(いわゆるアレタリック不確実性)を捉えることに重点を置いている。
本稿では,各専門家ネットワークがアレータティック不確実性の異なるモードを推定する,新しい専門家モデル(MoSE)を提案する。
We developed a Wasserstein-like loss that makes direct minimizes the distribution distance between the MoSE and ground truth annotations。
論文 参考訳(メタデータ) (2022-12-14T16:48:21Z) - Uncertainty Quantification of Collaborative Detection for Self-Driving [12.590332512097698]
連結車両と自律車両(CAV)間の情報共有は、自動運転のための協調物体検出の性能を向上させる。
しかし、CAVは実用上の課題のため、まだ物体検出に不確実性を持っている。
我々の研究は、協調物体検出の不確かさを最初に見積もるものである。
論文 参考訳(メタデータ) (2022-09-16T20:30:45Z) - Residual Overfit Method of Exploration [78.07532520582313]
提案手法は,2点推定値の調整と1点オーバーフィットに基づく近似探索手法を提案する。
このアプローチは、調整されたモデルと比較して、オーバーフィットモデルが最も過度な適合を示すアクションへの探索を促進する。
ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
論文 参考訳(メタデータ) (2021-10-06T17:05:33Z) - Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。
最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。
ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文 参考訳(メタデータ) (2020-12-21T09:04:27Z) - Uncertainty-Aware Few-Shot Image Classification [118.72423376789062]
ラベル付き限られたデータから新しいカテゴリを認識できる画像分類はほとんどない。
画像分類のための不確実性を考慮したFew-Shotフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T12:26:27Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。