論文の概要: Heterogeneous Uncertainty-Guided Composed Image Retrieval with Fine-Grained Probabilistic Learning
- arxiv url: http://arxiv.org/abs/2601.11393v2
- Date: Thu, 22 Jan 2026 11:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 13:30:18.378923
- Title: Heterogeneous Uncertainty-Guided Composed Image Retrieval with Fine-Grained Probabilistic Learning
- Title(参考訳): 微粒化確率論的学習を用いた不確かさ誘導合成画像検索
- Authors: Haomiao Tang, Jinpeng Wang, Minyi Zhao, Guanghao Meng, Ruisheng Luo, Long Chen, Shu-Tao Xia,
- Abstract要約: Composed Image Retrieval (CIR)は、参照画像と修正テキストを組み合わせることで、画像検索を可能にする。
CIR三重項の内在ノイズは内在的不確実性を引き起こし、モデルの堅牢性を脅かす。
本稿では,これらの制約を克服するための不確実性誘導(HUG)パラダイムを提案する。
- 参考スコア(独自算出の注目度): 49.28548464288051
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Composed Image Retrieval (CIR) enables image search by combining a reference image with modification text. Intrinsic noise in CIR triplets incurs intrinsic uncertainty and threatens the model's robustness. Probabilistic learning approaches have shown promise in addressing such issues; however, they fall short for CIR due to their instance-level holistic modeling and homogeneous treatment of queries and targets. This paper introduces a Heterogeneous Uncertainty-Guided (HUG) paradigm to overcome these limitations. HUG utilizes a fine-grained probabilistic learning framework, where queries and targets are represented by Gaussian embeddings that capture detailed concepts and uncertainties. We customize heterogeneous uncertainty estimations for multi-modal queries and uni-modal targets. Given a query, we capture uncertainties not only regarding uni-modal content quality but also multi-modal coordination, followed by a provable dynamic weighting mechanism to derive comprehensive query uncertainty. We further design uncertainty-guided objectives, including query-target holistic contrast and fine-grained contrasts with comprehensive negative sampling strategies, which effectively enhance discriminative learning. Experiments on benchmarks demonstrate HUG's effectiveness beyond state-of-the-art baselines, with faithful analysis justifying the technical contributions.
- Abstract(参考訳): Composed Image Retrieval (CIR)は、参照画像と修正テキストを組み合わせることで、画像検索を可能にする。
CIR三重項の内在ノイズは内在的不確実性を引き起こし、モデルの堅牢性を脅かす。
確率論的学習アプローチはそのような問題に対処する上で有望であることを示しているが、インスタンスレベルの全体モデリングとクエリとターゲットの均質な処理のため、CIRでは不足している。
本稿では,これらの制約を克服するための不確実性誘導(HUG)パラダイムを提案する。
HUGは、クエリとターゲットを、詳細な概念と不確実性をキャプチャするガウスの埋め込みによって表現する、きめ細かい確率的学習フレームワークを使用している。
マルチモーダルクエリとユニモーダルターゲットに対して不均一な不確実性推定をカスタマイズする。
クエリが与えられた場合、ユニモーダルコンテンツの品質だけでなく、マルチモーダルコーディネートに関する不確実性も把握し、続いて、包括的なクエリの不確実性を引き出すための動的重み付け機構が提案される。
さらに、問合せ対象の全体的コントラストや、包括的ネガティブサンプリング戦略とのきめ細かいコントラストを含む不確実性誘導目的を設計し、識別学習を効果的に強化する。
ベンチマークの実験では、HUGが最先端のベースラインを超えて有効であることを示し、技術的貢献を正当化する忠実な分析を行った。
関連論文リスト
- LLM-Centric RAG with Multi-Granular Indexing and Confidence Constraints [5.2604064919135896]
本稿では,複雑な知識環境下での検索強化生成において,不十分なカバレッジ,不安定な結果,信頼性の制限といった問題に対処する。
複数粒度メモリインデックスと不確実性推定を統合した信頼度制御法を提案する。
提案手法は,QA精度,検索リコール,ランキング品質,事実整合性において,既存モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-10-30T23:48:37Z) - Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning [28.15997901023315]
Recallは、未学習のIMGの堅牢性を損なうために設計された、新しい敵のフレームワークである。
逆効果、計算効率、意味的忠実性の点で、元のプロンプトで既存のベースラインを一貫して上回ります。
これらの結果は、現在の未学習メカニズムにおける重大な脆弱性を明らかにし、より堅牢なソリューションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-09T02:59:01Z) - UGG-ReID: Uncertainty-Guided Graph Model for Multi-Modal Object Re-Identification [26.770271366177603]
マルチモーダルオブジェクトReID(UGG-ReID)に対する不確実性誘導グラフモデルというロバストなアプローチを提案する。
UGG-ReIDは、ノイズ干渉を緩和し、効果的なマルチモーダル融合を促進するように設計されている。
実験結果から,提案手法は全データセットに対して優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2025-07-07T03:41:08Z) - A Review of Bayesian Uncertainty Quantification in Deep Probabilistic Image Segmentation [0.0]
本稿では,不確実性モデリングにおける基礎概念の統合とコンテキスト化について述べる。
空間集合における強い仮定や標準ベンチマークの欠如といった課題を特定する。
深層学習における不確実性認識のセグメンテーションを進めるための方向性を提案する。
論文 参考訳(メタデータ) (2024-11-25T13:26:09Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。
TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-04-25T03:48:49Z) - Uncertainty-Aware Few-Shot Image Classification [118.72423376789062]
ラベル付き限られたデータから新しいカテゴリを認識できる画像分類はほとんどない。
画像分類のための不確実性を考慮したFew-Shotフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T12:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。