論文の概要: Automatic Attack Discovery for Few-Shot Class-Incremental Learning via Large Language Models
- arxiv url: http://arxiv.org/abs/2512.03882v1
- Date: Wed, 03 Dec 2025 15:34:26 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:07:25.861601
- Title: Automatic Attack Discovery for Few-Shot Class-Incremental Learning via Large Language Models
- Title(参考訳): 大規模言語モデルを用いたクラスインクリメンタル学習のための自動攻撃検出
- Authors: Haidong Kang, Wei Wu, Hanling Wang,
- Abstract要約: 本研究の目的は、FSCILに対する攻撃の影響に関する総合的な研究を提供することである。
まず、人間の専門家が設計した攻撃方法がFSCILにどのように影響するかを体系的に検討することによって、洞察を導き出す。
そこで本研究では,FSCILをターゲットとした最適な攻撃手法を自動で検出する,シンプルで効果的なACraft手法を提案する。
- 参考スコア(独自算出の注目度): 4.091193479971881
- License:
- Abstract: Few-shot class incremental learning (FSCIL) is a more realistic and challenging paradigm in continual learning to incrementally learn unseen classes and overcome catastrophic forgetting on base classes with only a few training examples. Previous efforts have primarily centered around studying more effective FSCIL approaches. By contrast, less attention was devoted to thinking the security issues in contributing to FSCIL. This paper aims to provide a holistic study of the impact of attacks on FSCIL. We first derive insights by systematically exploring how human expert-designed attack methods (i.e., PGD, FGSM) affect FSCIL. We find that those methods either fail to attack base classes, or suffer from huge labor costs due to relying on huge expert knowledge. This highlights the need to craft a specialized attack method for FSCIL. Grounded in these insights, in this paper, we propose a simple yet effective ACraft method to automatically steer and discover optimal attack methods targeted at FSCIL by leveraging Large Language Models (LLMs) without human experts. Moreover, to improve the reasoning between LLMs and FSCIL, we introduce a novel Proximal Policy Optimization (PPO) based reinforcement learning to optimize learning, making LLMs generate better attack methods in the next generation by establishing positive feedback. Experiments on mainstream benchmarks show that our ACraft significantly degrades the performance of state-of-the-art FSCIL methods and dramatically beyond human expert-designed attack methods while maintaining the lowest costs of attack.
- Abstract(参考訳): FSCIL(Few-shot class incremental learning)は、連続学習において、目に見えないクラスを漸進的に学習し、少数のトレーニング例で基礎クラスでの破滅的な忘れを克服する、より現実的で挑戦的なパラダイムである。
これまでの取り組みは主に、より効果的なFSCILアプローチの研究に重点を置いてきた。
対照的に、FSCILに貢献する際のセキュリティ上の問題を考えることにはあまり注意が払われなかった。
本研究の目的は、FSCILに対する攻撃の影響に関する総合的な研究を提供することである。
まず、人間の専門家が設計した攻撃方法(PGD、FGSM)がFSCILにどのように影響するかを体系的に検討することによって、洞察を導き出す。
これらの手法は、ベースクラスへの攻撃に失敗するか、あるいは専門家の知識に頼っているため、多大な労働コストに悩まされることがわかりました。
このことは、FSCILの特殊な攻撃方法を構築する必要性を強調している。
そこで本研究では,FSCILを対象とする最適な攻撃手法を,人的専門家のいない大規模言語モデル(LLM)を用いて自動操縦し,発見する,シンプルで効果的なACraft手法を提案する。
さらに、LLMとFSCILの推論を改善するために、学習を最適化する新しいPPOベースの強化学習を導入し、肯定的なフィードバックを確立することにより、LLMが次世代の攻撃方法を改善する。
主流のベンチマークの実験では、我々のACraftは最先端のFSCILメソッドのパフォーマンスを著しく低下させ、攻撃の最低コストを維持しながら、人間の専門家が設計した攻撃手法を劇的に超えています。
関連論文リスト
- Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - CheatAgent: Attacking LLM-Empowered Recommender Systems via LLM Agent [32.958798200220286]
大言語モデル(LLM)を利用したレコメンデーションシステム(RecSys)は、パーソナライズされたユーザーエクスペリエンスに大きな進歩をもたらした。
LLMの人間的な能力を活用して、CheatAgentと呼ばれる新たな攻撃フレームワークを提案する。
提案手法は,入力修正の最小化による最大衝撃に対する挿入位置をまず同定する。
論文 参考訳(メタデータ) (2025-04-13T05:31:37Z) - Enhancing LLM Knowledge Learning through Generalization [73.16975077770765]
我々は,LLMが様々な言い換えの文脈に与えられた同じ事実的知識トークンを継続的に予測する能力は,質問応答によってその知識を抽出する能力と正の相関性を示す。
そこで本稿では,LLMの知識獲得能力を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-03-05T17:56:20Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Towards LLM Unlearning Resilient to Relearning Attacks: A Sharpness-Aware Minimization Perspective and Beyond [41.3029262040131]
再学習攻撃に対して未学習モデルを堅牢化する方法について検討する。
解析の結果,スムーズさの最適化が再学習攻撃の軽減に重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-07T23:03:55Z) - Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。
本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T09:55:34Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。