論文の概要: Noise-aware few-shot learning through bi-directional multi-view prompt alignment
- arxiv url: http://arxiv.org/abs/2603.11617v1
- Date: Thu, 12 Mar 2026 07:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.943254
- Title: Noise-aware few-shot learning through bi-directional multi-view prompt alignment
- Title(参考訳): 双方向多視点アプティブアライメントによる雑音認識型複数ショット学習
- Authors: Lu Niu, Cheng Xue,
- Abstract要約: 本稿では,双方向多視点プロンプトアライメントによる雑音認識による複数ショット学習のためのフレームワークを提案する。
堅牢なプロンプト学習には、グローバルマッチングから地域対応アライメントに移行する必要があります。
合成および実世界のノイズのあるベンチマークの実験は、NA-MVPが一貫して最先端のベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 4.299934797034146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models offer strong few-shot capability through prompt tuning but remain vulnerable to noisy labels, which can corrupt prompts and degrade cross-modal alignment. Existing approaches struggle because they often lack the ability to model fine-grained semantic cues and to adaptively separate clean from noisy signals. To address these challenges, we propose NA-MVP, a framework for Noise-Aware few-shot learning through bi-directional Multi-View Prompt alignment. NA-MVP is built upon a key conceptual shift: robust prompt learning requires moving from global matching to region-aware alignment that explicitly distinguishes clean cues from noisy ones. To realize this, NA-MVP employs (1) multi-view prompts combined with unbalanced optimal transport to achieve fine-grained patch-to-prompt correspondence while suppressing unreliable regions; (2) a bi-directional prompt design that captures complementary clean-oriented and noise-aware cues, enabling the model to focus on stable semantics; and (3) an alignment-guided selective refinement strategy that uses optimal transport to correct only mislabeled samples while retaining reliable data. Experiments on synthetic and real-world noisy benchmarks demonstrate that NA-MVP consistently outperforms state-of-the-art baselines, confirming its effectiveness in enabling robust few-shot learning under noisy supervision.
- Abstract(参考訳): 視覚言語モデルは、プロンプトチューニングによって強力な少数ショット機能を提供するが、ノイズの多いラベルに弱いままであり、プロンプトを破損させ、モーダルアライメントを劣化させる可能性がある。
既存のアプローチは、細粒度のセマンティックキューをモデル化し、ノイズの多い信号から適応的にクリーンに分離する能力がないため、苦労する。
これらの課題に対処するために、双方向のマルチビュープロンプトアライメントによるノイズ認識による数ショット学習のためのフレームワークであるNA-MVPを提案する。
堅牢なプロンプト学習は、グローバルマッチングから地域対応アライメントへの移行を必要とします。
NA-MVPでは,(1)不均衡な最適輸送と組み合わせて,信頼性の低い領域を抑えつつ,きめ細かなパッチ・ツー・プロンプト対応を実現する,(2)相補的クリーンオリエント・ノイズ・アウェア・キューを捕捉し,安定したセマンティクスにフォーカス可能な双方向のプロンプト設計,(3)信頼されたデータを保持しながら,最適なトランスポートを利用するアライメント誘導選択的リファインメント戦略を採用する。
合成および実世界のノイズのあるベンチマークの実験では、NA-MVPは最先端のベースラインを一貫して上回り、ノイズの多い監視の下で堅牢な数発の学習を可能にする効果を確認している。
関連論文リスト
- Test-time Adaptive Hierarchical Co-enhanced Denoising Network for Reliable Multimodal Classification [55.56234913868664]
マルチモーダルデータを用いた信頼性学習のためのTAHCD(Test-time Adaptive Hierarchical Co-enhanced Denoising Network)を提案する。
提案手法は,最先端の信頼性の高いマルチモーダル学習手法と比較して,優れた分類性能,堅牢性,一般化を実現する。
論文 参考訳(メタデータ) (2026-01-12T03:14:12Z) - Dual-granularity Sinkhorn Distillation for Enhanced Learning from Long-tailed Noisy Data [67.25796812343454]
ディープラーニングのための実世界のデータセットは、クラス不均衡とラベルノイズの共起的な課題にしばしば悩まされる。
蒸留と相補的な知見の統合により二重強靭性を高める新しいフレームワークであるD-SINKを提案する。
ベンチマークデータセットの実験では、D-SINKはロバスト性を大幅に向上し、長い尾のノイズデータから学習する際の強い経験的性能を達成することが示された。
論文 参考訳(メタデータ) (2025-10-09T13:05:27Z) - Robust Prompt Tuning for Vision-Language Models with Mild Semantic Noise [9.536089523962486]
本稿では弱いセマンティックノイズを積極的に組み込んだ堅牢なプロンプトチューニングフレームワークであるANPromptを提案する。
我々は、ANPromptが既存のプロンプトチューニング手法より一貫して優れていることを示す。
セマンティックノイズに対して優れたロバスト性を提供し、タスク間の一般化を改善している。
論文 参考訳(メタデータ) (2025-08-06T17:42:30Z) - Reliable Few-shot Learning under Dual Noises [166.53173694689693]
そこで我々はDETA++(Denoized Task Adaptation)を提案する。
DETA++はメモリバンクを使用して、各インナータスククラスのクリーンなリージョンを格納し、精製する。
大規模な実験は、DETA++の有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2025-06-19T14:05:57Z) - Generalizable Vision-Language Few-Shot Adaptation with Predictive Prompts and Negative Learning [1.3680468021400563]
ヴィジュアル言語モデル(VLM)の核となる課題は、ほとんどない
PromptFuseNLは、予測的プロンプトチューニングと2分岐正負の学習を組み合わせることで、数ショットの一般化を向上する統合フレームワークである。
論文 参考訳(メタデータ) (2025-05-16T23:39:34Z) - NLPrompt: Noise-Label Prompt Learning for Vision-Language Models [45.35555264802591]
実世界のデータセットは、しばしば、迅速な学習性能を劣化させるうるノイズの多いラベルを含んでいる。
本稿では,PromptMAEという名前の学習における平均絶対誤差(MAE)損失を用いることで,雑音ラベルに対するロバスト性を著しく向上することを示す。
また,ロバスト性を高めるために,プロンプトを用いた最適輸送データ浄化手法であるPromptOTを導入する。
論文 参考訳(メタデータ) (2024-12-02T08:25:09Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation [91.83820250747935]
擬似ラベルノイズは主に不安定なサンプルに含まれており、ほとんどのピクセルの予測は自己学習中に大きく変化する。
我々は, 安定・不安定な試料を効果的に発見する, SND(Stable Neighbor Denoising)アプローチを導入する。
SNDは、様々なSFUDAセマンティックセグメンテーション設定における最先端メソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-06-10T21:44:52Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。