論文の概要: Silent Sabotage During Fine-Tuning: Few-Shot Rationale Poisoning of Compact Medical LLMs
- arxiv url: http://arxiv.org/abs/2603.02262v1
- Date: Sat, 28 Feb 2026 07:25:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.478163
- Title: Silent Sabotage During Fine-Tuning: Few-Shot Rationale Poisoning of Compact Medical LLMs
- Title(参考訳): 微調整中における無害なサボタージュ:小型医療用LLMのロータリー焼成
- Authors: Jingyuan Xie, Wenjie Wang, Ji Wu, Jiandong Gao,
- Abstract要約: 医療用大言語モデル(LLMs)の開発にはSFT(Supervised Fine-tuning)が不可欠である
SFT中における医療用LCMの推論過程を標的とした新規な毒殺攻撃を提案する。
- 参考スコア(独自算出の注目度): 13.477111992646456
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Supervised fine-tuning (SFT) is essential for the development of medical large language models (LLMs), yet prior poisoning studies have mainly focused on the detectable backdoor attacks. We propose a novel poisoning attack targeting the reasoning process of medical LLMs during SFT. Unlike backdoor attacks, our method injects poisoned rationales into few-shot training data, leading to stealthy degradation of model performance on targeted medical topics. Results showed that knowledge overwriting was ineffective, while rationale poisoning caused significant decline on the accuracy of the target subject, as long as no correct samples of the same subject appear in the dataset. A minimum number and ratio of poisoned samples was needed to carry out an effective and stealthy attack, which was more efficient and accurate than catastrophic forgetting. We demonstrate though this study the risk of SFT-stage poisoning, hoping to spur more studies of defense in the sensitive medical domain.
- Abstract(参考訳): 医療用大規模言語モデル(LLM)の開発にはSFT(supervised fine-tuning)が不可欠であるが、従来の中毒研究は主に検出可能なバックドア攻撃に焦点を当てている。
SFT中における医療用LCMの推論過程を標的とした新規な毒殺攻撃を提案する。
バックドアアタックとは違って,本手法は有毒な合理性を数発の訓練データに注入し,対象とする医療トピックに対するモデル性能のステルス性低下を招いた。
その結果, 知識のオーバーライトは有効ではなく, 合理的な中毒は対象者の精度を著しく低下させ, 同一被験者の正しいサンプルがデータセットに存在しない限り, 結果が得られた。
有害な試料の最小数と比率は、破滅的な忘れ物よりも効率的で正確で効果的な攻撃を行うために必要だった。
本研究は, SFTステージ中毒のリスクを実証し, 機密医療領域における防御研究の促進を期待する。
関連論文リスト
- Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples [81.67041843907371]
この研究は、データセットのサイズに関わらず、毒殺攻撃がほぼ一定数のドキュメントを必要とすることを初めて実証した。
250の有毒なドキュメントも同様に、すべてのモデルとデータセットサイズにわたってモデルを妥協している。
以上の結果から,データ中毒によるバックドア注入は,従来考えられていたよりも大型モデルの方が容易である可能性が示唆された。
論文 参考訳(メタデータ) (2025-10-08T16:25:05Z) - Deferred Poisoning: Making the Model More Vulnerable via Hessian Singularization [36.13844441263675]
我々は、より脅迫的なタイプの毒殺攻撃(Dederred Poisoning Attack)を導入する。
この新たな攻撃により、モデルは通常、トレーニングと検証フェーズで機能するが、回避攻撃や自然騒音に非常に敏感になる。
提案手法の理論的および実証的な解析を行い、画像分類タスクの実験を通してその効果を検証した。
論文 参考訳(メタデータ) (2024-11-06T08:27:49Z) - On the Adversarial Risk of Test Time Adaptation: An Investigation into Realistic Test-Time Data Poisoning [49.17494657762375]
テスト時間適応(TTA)は、テストデータを使用して推論段階でモデルの重みを更新し、一般化を強化する。
既存の研究では、TTAが逆方向検体で更新されると、良性検体の性能が低下することが示されている。
そこで本研究では, 良性試料にアクセスすることなく, 有毒試料を効果的かつ現実的に生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T01:29:19Z) - APBench: A Unified Benchmark for Availability Poisoning Attacks and
Defenses [21.633448874100004]
APBenchは、敵の毒殺攻撃の有効性を評価するためのベンチマークである。
APBenchは9つの最先端のアベイラビリティ・アベイラビリティ・アタック、8つの防御アルゴリズム、および4つの従来のデータ拡張技術で構成されている。
われわれの結果は、個人のプライバシーを守るために、既存の攻撃が不適切であることを明らかにしている。
論文 参考訳(メタデータ) (2023-08-07T02:30:47Z) - Sharpness-Aware Data Poisoning Attack [38.01535347191942]
最近の研究は、データ中毒攻撃に対するディープニューラルネットワーク(DNN)の脆弱性を強調している。
我々は「SAPA(シャープネス・アウェア・データ・ポジショニング・アタック)」と呼ばれる新たな攻撃方法を提案する。
特に、DNNの損失ランドスケープシャープネスの概念を活用して、最悪の再訓練モデルに対する中毒効果を最適化する。
論文 参考訳(メタデータ) (2023-05-24T08:00:21Z) - Exploring the Limits of Model-Targeted Indiscriminate Data Poisoning
Attacks [31.339252233416477]
対象パラメータに対するデータ中毒攻撃の本質的な限界を探索するための技術ツールとして,モデル中毒の到達可能性の概念を紹介した。
我々は、一般的なMLモデルの中で驚くべき位相遷移現象を確立し、定量化するために、容易に計算可能なしきい値を得る。
我々の研究は, 有毒比がもたらす重要な役割を強調し, データ中毒における既存の経験的結果, 攻撃, 緩和戦略に関する新たな知見を隠蔽する。
論文 参考訳(メタデータ) (2023-03-07T01:55:26Z) - Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。
我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文 参考訳(メタデータ) (2021-06-18T08:29:53Z) - Provable Defense Against Delusive Poisoning [64.69220849669948]
本研究は, 対人訓練が妄想性中毒に対する防御法であることを示す。
これは、敵の訓練が妄想的中毒に対する原則的な防御方法であることを意味している。
論文 参考訳(メタデータ) (2021-02-09T09:19:47Z) - Data Poisoning Attacks on Regression Learning and Corresponding Defenses [0.0]
逆データ中毒は機械学習に対する効果的な攻撃であり、トレーニングデータセットに有毒データを導入することでモデルの完全性を脅かす。
データ中毒攻撃が生産システムに脅威を与え、新たなブラックボックス攻撃をもたらす現実的なシナリオを提示する。
その結果, 残留剤の平均二乗誤差(MSE)は, わずか2%の毒素を挿入することにより150パーセントに増加することがわかった。
論文 参考訳(メタデータ) (2020-09-15T12:14:54Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z) - Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and
Data Poisoning Attacks [74.88735178536159]
データ中毒は、モデル盗難から敵の攻撃まで、脅威の中で一番の懸念事項だ。
データ中毒やバックドア攻撃は、テスト設定のバリエーションに非常に敏感である。
厳格なテストを適用して、それらを恐れるべき程度を判断します。
論文 参考訳(メタデータ) (2020-06-22T18:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。