論文の概要: Provably Robust Adaptation for Language-Empowered Foundation Models
- arxiv url: http://arxiv.org/abs/2510.08659v1
- Date: Thu, 09 Oct 2025 13:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.30494
- Title: Provably Robust Adaptation for Language-Empowered Foundation Models
- Title(参考訳): 言語を用いた基礎モデルに対するロバスト適応の可能性
- Authors: Yuni Lai, Xiaoyu Xue, Linghui Shen, Yulun Wu, Gaolei Li, Song Guo, Kai Zhou, Bin Xiao,
- Abstract要約: 言語をベースとした基礎モデル(LeFM)は、視覚的(またはグラフ)機能をテキスト表現と整合させることでマルチモーダル学習を変革し、少数ショット学習のような強力な下流機能を実現する。
既存の防衛は、正式な保証を欠いている経験的戦略に依存しており、目に見えない適応的な攻撃に弱いままである。
本稿では,テキストと特徴埋め込みの両方を適応的なブレンディング機構で統合した,Language-empowered Few-shot Certification(textbfLeFCert)を提案する。
実験により、LeFCertは最先端のパフォーマンスを達成し、既存のベースラインと比較して、クリーンと認定の両方の精度を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 39.0848735217206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-empowered foundation models (LeFMs), such as CLIP and GraphCLIP, have transformed multimodal learning by aligning visual (or graph) features with textual representations, enabling powerful downstream capabilities like few-shot learning. However, the reliance on small, task-specific support datasets collected in open environments exposes these models to poisoning attacks, where adversaries manipulate the support samples to degrade performance. Existing defenses rely on empirical strategies, which lack formal guarantees and remain vulnerable to unseen and adaptive attacks. Certified robustness offers provable guarantees but has been largely unexplored for few-shot classifiers based on LeFMs. This study seeks to fill these critical gaps by proposing the first provably robust few-shot classifier that is tailored for LeFMs. We term our model Language-empowered Few-shot Certification (\textbf{LeFCert}). It integrates both textual and feature embeddings with an adaptive blending mechanism. To achieve provable robustness, we propose a twofold trimmed mean prototype and derive provable upper and lower bounds for classification scores, enabling certification under worst-case poisoning scenarios. To further enhance the performance, we extend LeFCert with two variants by considering a more realistic and tighter attack budget: LeFCert-L incorporates randomized smoothing to provide Lipschitz continuity and derive robustness under dual budget constraints, and LeFCert-C provides collective certification for scenarios where attackers distribute a shared poisoning budget across multiple samples. Experiments demonstrate that LeFCert achieves state-of-the-art performance, significantly improving both clean and certified accuracy compared to existing baselines. Despite its advanced robustness mechanisms, LeFCert is computationally efficient, making it practical for real-world applications.
- Abstract(参考訳): CLIPやGraphCLIPといった言語をベースとした基礎モデル(LeFM)は、視覚的(あるいはグラフ)機能をテキスト表現と整合させることで、マルチモーダルな学習を変革した。
しかし、オープン環境で収集された小さなタスク固有のサポートデータセットへの依存は、これらのモデルを有害な攻撃に晒し、敵がサポートサンプルを操作してパフォーマンスを低下させる。
既存の防衛は、正式な保証を欠いている経験的戦略に依存しており、目に見えない適応的な攻撃に弱いままである。
認証された堅牢性は証明可能な保証を提供するが、ほとんどはLeFMに基づいた数発の分類器で探索されていない。
この研究は、LeFM用に調整された最初の確固とした数発の分類器を提案することによって、これらの臨界ギャップを埋めようとしている。
我々は、我々のモデルであるLanguage-empowered Few-shot Certification (\textbf{LeFCert}) と呼ぶ。
テキストとフィーチャの埋め込みの両方を適応的なブレンディング機構に統合する。
実証可能なロバスト性を達成するため,実証可能な2次元トリミング平均プロトタイプを提案し,検証可能な上・下限の分類スコアを導出し,最悪の場合の中毒シナリオ下での認証を可能にする。
より現実的でより厳密な攻撃予算を考慮し、LeFCertを2つのバリエーションで拡張する: LeFCert-Lはランダムな平滑化を導入し、2つの予算制約の下でLipschitzの連続性を提供し、堅牢性を誘導する。
実験により、LeFCertは最先端のパフォーマンスを達成し、既存のベースラインと比較して、クリーンと認定の両方の精度を著しく向上することが示された。
高度な堅牢性機構にもかかわらず、LeFCertは計算効率が良く、現実世界のアプリケーションに実用的である。
関連論文リスト
- Attribute Fusion-based Classifier on Framework of Belief Structure [46.24928730489845]
Dempster-Shafer Theory (DST)は、不確実性をモデリングするための強力なフレームワークを提供し、多属性分類タスクに広く適用されてきた。
従来のDSTに基づく属性融合型分類器は、単純化されたメンバーシップ関数モデリングと基本確率割当(BPA)による信念構造の限定的活用に悩まされている。
本稿では,2つの重要なイノベーションを通じて,これらの制限に対処する属性融合型分類器を提案する。
論文 参考訳(メタデータ) (2025-08-31T09:05:15Z) - SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Generalizable Vision-Language Few-Shot Adaptation with Predictive Prompts and Negative Learning [1.3680468021400563]
ヴィジュアル言語モデル(VLM)の核となる課題は、ほとんどない
PromptFuseNLは、予測的プロンプトチューニングと2分岐正負の学習を組み合わせることで、数ショットの一般化を向上する統合フレームワークである。
論文 参考訳(メタデータ) (2025-05-16T23:39:34Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models [0.0]
本研究では,アプリケーションのレジリエンスを定量化する新しいフレームワークを提案する。
このフレームワークには、代表性、解釈可能性、堅牢性を保証するために設計された革新的な技術が含まれている。
その結果, 新しいモデルであるLlama2はChatGLMよりも高いレジリエンスを示した。
論文 参考訳(メタデータ) (2024-01-02T02:06:48Z) - Certified Distributional Robustness on Smoothed Classifiers [27.006844966157317]
本稿では,ロバスト性証明として,入力分布に対する最悪の逆損失を提案する。
双対性と滑らか性を利用して、証明書のサロゲートとして容易に計算できる上限を与える。
論文 参考訳(メタデータ) (2020-10-21T13:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。