Fugu-MT 論文翻訳(概要): Composed Image Retrieval with Text Feedback via Multi-grained Uncertainty Regularization

論文の概要: Composed Image Retrieval with Text Feedback via Multi-grained Uncertainty Regularization

arxiv url: http://arxiv.org/abs/2211.07394v1
Date: Mon, 14 Nov 2022 14:25:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 18:41:34.644853
Title: Composed Image Retrieval with Text Feedback via Multi-grained Uncertainty Regularization
Title（参考訳）: 多粒度不確かさ正規化によるテキストフィードバックによる合成画像検索
Authors: Yiyang Chen, Zhedong Zheng, Wei Ji, Leigang Qu, Tat-Seng Chua
Abstract要約: 粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。提案手法は、強いベースライン上で+4.03%、+3.38%、+2.40% Recall@50精度を達成した。
参考スコア（独自算出の注目度）: 77.30965981016902
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate composed image retrieval with text feedback. Users gradually look for the target of interest by moving from coarse to fine-grained feedback. However, existing methods merely focus on the latter, i.e, fine-grained search, by harnessing positive and negative pairs during training. This pair-based paradigm only considers the one-to-one distance between a pair of specific points, which is not aligned with the one-to-many coarse-grained retrieval process and compromises the recall rate. In an attempt to fill this gap, we introduce a unified learning approach to simultaneously modeling the coarse- and fine-grained retrieval by considering the multi-grained uncertainty. The key idea underpinning the proposed method is to integrate fine- and coarse-grained retrieval as matching data points with small and large fluctuations, respectively. Specifically, our method contains two modules: uncertainty modeling and uncertainty regularization. (1) The uncertainty modeling simulates the multi-grained queries by introducing identically distributed fluctuations in the feature space. (2) Based on the uncertainty modeling, we further introduce uncertainty regularization to adapt the matching objective according to the fluctuation range. Compared with existing methods, the proposed strategy explicitly prevents the model from pushing away potential candidates in the early stage, and thus improves the recall rate. On the three public datasets, i.e., FashionIQ, Fashion200k, and Shoes, the proposed method has achieved +4.03%, + 3.38%, and + 2.40% Recall@50 accuracy over a strong baseline, respectively.
Abstract（参考訳）: テキストフィードバックによる合成画像検索について検討した。ユーザは、粗いフィードバックから細かいフィードバックに移行することで、徐々に関心の対象を探します。しかし、既存の方法は、訓練中に正のペアと負のペアを利用することで、後者、すなわちきめ細かい検索にのみ焦点を合わせている。このペアベースのパラダイムは、一対の特定点間の一対一の距離のみを考慮し、一対一の粗い粗い検索プロセスと一致せず、リコール率を損なう。このギャップを埋めるために,多粒度不確実性を考慮した粗粒度検索を同時にモデル化する統一学習手法を提案する。提案手法を基盤とするキーアイデアは,データポイントと小変動点,大変動点のマッチングとして,細粒度検索と粗粒度検索を統合することである。具体的には、不確実性モデリングと不確実性正規化の2つのモジュールを含む。 1)不確実性モデリングは,特徴空間に同一の分散変動を導入することで,多粒度クエリをシミュレートする。 2) 不確実性モデリングに基づいて,変動範囲に応じて一致目標を適応させる不確実性正規化を導入する。既存手法と比較して, 提案手法では, モデルが早期に潜在的な候補を追い払うことを明示的に防止し, リコール率を向上させる。 fashioniq, fashion200k, shoesの3つのパブリックデータセットにおいて,提案手法はそれぞれ,強いベースラインに対して +4.03%, + 3.38%, + 2.40% recall@50 精度を達成した。

関連論文リスト

A Multi-Level Similarity Approach for Single-View Object Grasping: Matching, Planning, and Fine-Tuning [17.162675084829242]
一つの視点から3つの重要なステップを通して、未知の物体をしっかりと把握する手法を提案する。本稿では, 意味的, 幾何学的, 次元的特徴を統合し, 包括的評価を行う多層類似性マッチングフレームワークを提案する。さらに,大規模言語モデルの導入,半指向境界ボックスの導入,平面検出に基づく新たなポイントクラウド登録手法の開発などを行い,単一ビュー条件下でのマッチング精度の向上を図る。
論文参考訳（メタデータ） (2025-07-16T06:07:57Z)
Contextual Similarity Distillation: Ensemble Uncertainties with a Single Model [5.624791703748109]
不確かさの定量化は強化学習と深層学習の重要な側面である。本研究では,1つのモデルによる深層ニューラルネットワークのアンサンブルの分散を明示的に推定する新しい手法である文脈類似蒸留を提案する。提案手法は,様々なアウト・オブ・ディストリビューション検出ベンチマークとスパース・リワード強化学習環境にまたがって実証的に検証する。
論文参考訳（メタデータ） (2025-03-14T12:09:58Z)
DiverseAgentEntropy: Quantifying Black-Box LLM Uncertainty through Diverse Perspectives and Multi-Agent Interaction [53.803276766404494]
モデルの不確実性を評価する既存の手法は、元のクエリに対する自己整合性を評価することで、必ずしも真の不確実性を把握するわけではない。マルチエージェントインタラクションを用いたモデルの不確実性評価のための新しい手法であるDiverseAgentEntropyを提案する。提案手法は,モデルの信頼性をより正確に予測し,さらに幻覚を検知し,他の自己整合性に基づく手法よりも優れる。
論文参考訳（メタデータ） (2024-12-12T18:52:40Z)
Cycle-Consistency Uncertainty Estimation for Visual Prompting based One-Shot Defect Segmentation [0.0]
産業的欠陥検出は伝統的に、既知の欠陥型の固定データセットに基づいて訓練された教師付き学習モデルに依存している。視覚的プロンプトの最近の進歩は、提供された視覚的手がかりに基づいて、モデルが新しいカテゴリを適応的に推論できるようにすることによってソリューションを提供する。本稿では,サイクル整合性による視覚刺激過程の不確かさを推定する手法を提案する。
論文参考訳（メタデータ） (2024-09-21T02:25:32Z)
NubbleDrop: A Simple Way to Improve Matching Strategy for Prompted One-Shot Segmentation [2.2559617939136505]
マッチング戦略の有効性とロバスト性を高めるための,単純で訓練のない手法を提案する。中心となる概念は、マッチングプロセス中にランダムに特徴チャネル(0に設定する)をドロップすることである。この手法は、病理的なヌブルの破棄を模倣し、他の類似性コンピューティングのシナリオにシームレスに適用することができる。
論文参考訳（メタデータ） (2024-05-19T08:00:38Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
Modeling Multimodal Aleatoric Uncertainty in Segmentation with Mixture of Stochastic Expert [24.216869988183092]
入力画像にあいまいさが存在する場合、セグメンテーションにおけるデータ独立不確実性(いわゆるアレタリック不確実性)を捉えることに重点を置いている。本稿では,各専門家ネットワークがアレータティック不確実性の異なるモードを推定する,新しい専門家モデル(MoSE)を提案する。 We developed a Wasserstein-like loss that makes direct minimizes the distribution distance between the MoSE and ground truth annotations。
論文参考訳（メタデータ） (2022-12-14T16:48:21Z)
Uncertainty Quantification of Collaborative Detection for Self-Driving [12.590332512097698]
連結車両と自律車両(CAV)間の情報共有は、自動運転のための協調物体検出の性能を向上させる。しかし、CAVは実用上の課題のため、まだ物体検出に不確実性を持っている。我々の研究は、協調物体検出の不確かさを最初に見積もるものである。
論文参考訳（メタデータ） (2022-09-16T20:30:45Z)
Residual Overfit Method of Exploration [78.07532520582313]
提案手法は,2点推定値の調整と1点オーバーフィットに基づく近似探索手法を提案する。このアプローチは、調整されたモデルと比較して、オーバーフィットモデルが最も過度な適合を示すアクションへの探索を促進する。 ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
論文参考訳（メタデータ） (2021-10-06T17:05:33Z)
Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文参考訳（メタデータ） (2020-12-21T09:04:27Z)
Uncertainty-Aware Few-Shot Image Classification [118.72423376789062]
ラベル付き限られたデータから新しいカテゴリを認識できる画像分類はほとんどない。画像分類のための不確実性を考慮したFew-Shotフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-09T12:26:27Z)
Learning while Respecting Privacy and Robustness to Distributional Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文参考訳（メタデータ） (2020-07-07T18:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。