論文の概要: CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment
- arxiv url: http://arxiv.org/abs/2603.02557v1
- Date: Tue, 03 Mar 2026 03:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.620202
- Title: CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment
- Title(参考訳): CAPT:ビジョン・ランゲージのずれ軽減のためのコンフュージョン・アウェア・プロンプトチューニング
- Authors: Maoyuan Shao, Yutong Gao, Xinyang Huang, Chuang Zhu, Lijuan Sun, Guoshun Nan,
- Abstract要約: CLIPのような視覚言語モデルは、視覚的および意味論的に類似したカテゴリの体系的な分類に苦しむ。
そこで本研究では,モデルが自身のミスアライメントから学習することを可能にする,Confusion-Aware Prompt TuningフレームワークであるCAPTを提案する。
- 参考スコア(独自算出の注目度): 15.634714514096487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models like CLIP have achieved remarkable progress in cross-modal representation learning, yet suffer from systematic misclassifications among visually and semantically similar categories. We observe that such confusion patterns are not random but persistently occur between specific category pairs, revealing the model's intrinsic bias and limited fine-grained discriminative ability. To address this, we propose CAPT, a Confusion-Aware Prompt Tuning framework that enables models to learn from their own misalignment. Specifically, we construct a Confusion Bank to explicitly model stable confusion relationships across categories and misclassified samples. On this basis, we introduce a Semantic Confusion Miner (SEM) to capture global inter-class confusion through semantic difference and commonality prompts, and a Sample Confusion Miner (SAM) to retrieve representative misclassified instances from the bank and capture sample-level cues through a Diff-Manner Adapter that integrates global and local contexts. To further unify confusion information across different granularities, a Multi-Granularity Difference Expert (MGDE) module is designed to jointly leverage semantic- and sample-level experts for more robust confusion-aware reasoning. Extensive experiments on 11 benchmark datasets demonstrate that our method significantly reduces confusion-induced errors while enhancing the discriminability and generalization of both base and novel classes, successfully resolving 50.72 percent of confusable sample pairs. Code will be released at https://github.com/greatest-gourmet/CAPT.
- Abstract(参考訳): CLIPのような視覚言語モデルは、クロスモーダルな表現学習において顕著な進歩を遂げているが、視覚的および意味論的に類似したカテゴリーの体系的な誤分類に悩まされている。
このような混乱パターンは、特定のカテゴリペア間でランダムではなく持続的に発生し、モデル固有のバイアスと限定された微粒化識別能力を明らかにする。
そこで本研究では,モデルが自身のミスアライメントから学習することを可能にする,Confusion-Aware Prompt TuningフレームワークであるCAPTを提案する。
具体的には,カテゴリ間の安定な混同関係と誤分類サンプルを明示的にモデル化するコンフュージョンバンクを構築した。
セマンティック・コンフュージョン・マイナ (SEM) を導入し, セマンティック・コンフュージョン・マイナ (SEM) を用いて, セマンティック・コンフュージョン・マイナ (SAM) を用いて, セマンティック・コンフュージョン・マイナ (SEM) を用いて, セマンティック・コンフュージョン・マイナ (SEM) とサンプル・コンフュージョン・マイナ (SAM) を用いて, 銀行から代表的非分類インスタンスを抽出し, グローバル・ローカル・コンテキストを統合するディフ・マンナー・アダプタ (Diff-Manner Adapter) を通じてサンプルレベルのキューを捕捉する。
様々な粒度にまたがる混乱情報をさらに統一するために、Multi-Granularity Difference Expert (MGDE)モジュールは、より堅牢な混乱を考慮した推論のために、セマンティックおよびサンプルレベルのエキスパートを共同で活用するように設計されている。
11のベンチマークデータセットに対する大規模な実験により、本手法は混乱に起因する誤差を著しく低減し、また、基本クラスと新規クラスの識別性と一般化を高め、難解なサンプルペアの50.72パーセントを解消することに成功した。
コードはhttps://github.com/ Greatest-gourmet/CAPT.comでリリースされる。
関連論文リスト
- SetAD: Semi-Supervised Anomaly Learning in Contextual Sets [25.628827917857603]
半教師付き異常検出は、限られたラベル付きデータを効果的に活用することで大きな可能性を秘めている。
本研究では,半教師付きADをSet-level Anomaly Detectionタスクとして再編成する新しいフレームワークであるSetADを提案する。
頑健性とスコアの校正性を高めるため,文脈校正型異常スコアリング機構を提案する。
論文 参考訳(メタデータ) (2025-11-26T13:27:59Z) - Efficient semantic uncertainty quantification in language models via diversity-steered sampling [46.23327887393273]
本稿では,デコード中に意味的に冗長な出力を回避できるダイバーシティステアリング・サンプリング手法を提案する。
主要なアイデアは、モデルの提案分布に連続的な意味-類似性ペナルティを注入することである。
モジュラーであり、ベースLSMへの勾配アクセスを必要としないため、このフレームワークは不確実性評価のためのドロップインエンハンスメントとして機能することを約束している。
論文 参考訳(メタデータ) (2025-10-24T10:06:21Z) - Learning Robust Diffusion Models from Imprecise Supervision [75.53546939251146]
DMISは、Imrecise Supervisionから堅牢な条件拡散モデルをトレーニングするための統一されたフレームワークである。
我々のフレームワークは、可能性から派生し、その目的を生成的および分類的構成要素に分解する。
画像生成、弱教師付き学習、データセットの凝縮をカバーし、様々な形の不正確な監視実験を行い、DMISが常に高品質でクラス差別的なサンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-10-03T14:00:32Z) - Robust Multimodal Learning via Representation Decoupling [6.7678581401558295]
マルチモーダル学習はその実用性から注目を集めている。
既存の手法は、異なるモダリティの組み合わせに対して共通の部分空間表現を学習することで、この問題に対処する傾向がある。
本稿では,頑健なマルチモーダル学習を支援するために,DMRNet(Decoupled Multimodal Representation Network)を提案する。
論文 参考訳(メタデータ) (2024-07-05T12:09:33Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。