論文の概要: From Theory to Practice: Evaluating Data Poisoning Attacks and Defenses in In-Context Learning on Social Media Health Discourse
- arxiv url: http://arxiv.org/abs/2510.03636v1
- Date: Sat, 04 Oct 2025 02:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.16861
- Title: From Theory to Practice: Evaluating Data Poisoning Attacks and Defenses in In-Context Learning on Social Media Health Discourse
- Title(参考訳): 理論から実践へ:ソーシャルメディアの健康談話における文脈学習における攻撃・防御の評価
- Authors: Rabeya Amin Jhuma, Mostafa Mohaimen Akand Faisal,
- Abstract要約: 本研究では、大規模言語モデルにおけるインコンテキスト学習(ICL)が、データ中毒攻撃によっていかに破壊されるかを検討した。
HMPV (Human Metapneumovirus) のつぶやきを用いて, 支援例に小対人摂動を導入した。
スペクトル署名防衛(Spectral Signature Defense)が適用され、データの意味と感情をそのままに保ちながら、有毒なサンプルを除去した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study explored how in-context learning (ICL) in large language models can be disrupted by data poisoning attacks in the setting of public health sentiment analysis. Using tweets of Human Metapneumovirus (HMPV), small adversarial perturbations such as synonym replacement, negation insertion, and randomized perturbation were introduced into the support examples. Even these minor manipulations caused major disruptions, with sentiment labels flipping in up to 67% of cases. To address this, a Spectral Signature Defense was applied, which filtered out poisoned examples while keeping the data's meaning and sentiment intact. After defense, ICL accuracy remained steady at around 46.7%, and logistic regression validation reached 100% accuracy, showing that the defense successfully preserved the dataset's integrity. Overall, the findings extend prior theoretical studies of ICL poisoning to a practical, high-stakes setting in public health discourse analysis, highlighting both the risks and potential defenses for robust LLM deployment. This study also highlights the fragility of ICL under attack and the value of spectral defenses in making AI systems more reliable for health-related social media monitoring.
- Abstract(参考訳): 本研究では、大規模言語モデルにおけるインコンテキスト学習(ICL)が、公衆衛生感情分析の設定におけるデータ中毒攻撃によっていかに破壊されるかを検討した。
HMPV (Human Metapneumovirus) のつぶやきを用いて, 同義語置換,否定挿入,ランダム化摂動などの小対人摂動を支援例に導入した。
これらの小さな操作でさえ大きな破壊を引き起こし、感情ラベルは最大67%のケースで反転した。
これを解決するために、スペクトル署名防衛(Spectral Signature Defense)が適用され、データの意味と感情をそのままに保ちながら、有毒なサンプルをフィルタリングした。
防衛後、ICCの精度は約46.7%で安定し、ロジスティック回帰検証は100%の精度に達した。
全体として、ICL中毒の理論的研究は、公衆衛生談話分析における実践的で高い評価を受けており、ロバストLSM導入のリスクと潜在的な防御の両方を強調している。
この研究は、攻撃中のICLの脆弱性と、健康関連ソーシャルメディア監視にAIシステムをより信頼性の高いものにするためのスペクトル防御の価値を強調した。
関連論文リスト
- PoisonCatcher: Revealing and Identifying LDP Poisoning Attacks in IIoT [13.68394346583211]
ローカル微分プライバシー(LDP)は、軽量で分散化されスケーラブルであるため、産業用IoT(Industrial Internet of Things)で広く採用されている。
本研究は,資源豊富なアグリゲータにおけるIIoTに対するLDP中毒防御法を提案する。
論文 参考訳(メタデータ) (2024-12-20T09:26:50Z) - CopyrightShield: Enhancing Diffusion Model Security against Copyright Infringement Attacks [61.06621533874629]
拡散モデルは、攻撃者が戦略的に修正された非侵害画像をトレーニングセットに注入する著作権侵害攻撃に弱い。
まず、上記の攻撃に対して防御するための防御フレームワーク、PhiliptyShieldを提案する。
実験により,PhiliptyShieldは2つの攻撃シナリオで有毒なサンプル検出性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-12-02T14:19:44Z) - Data Poisoning and Leakage Analysis in Federated Learning [10.090442512374661]
データ中毒と漏洩のリスクは、現実世界におけるフェデレートされた学習の大規模展開を妨げる。
この章では、データプライバシー侵害のエミュレーションとデータ中毒のエミュレーションという2つの支配的脅威を理解するための真実と落とし穴を明らかにします。
論文 参考訳(メタデータ) (2024-09-19T16:50:29Z) - Interpretable Causal Inference for Analyzing Wearable, Sensor, and Distributional Data [62.56890808004615]
本研究では,信頼性とロバストな意思決定を確実にする,分散データ解析の解釈可能な手法を開発した。
ADD MALTSの有用性について,糖尿病リスク軽減のための連続グルコースモニターの有効性について検討した。
論文 参考訳(メタデータ) (2023-12-17T00:42:42Z) - On Practical Aspects of Aggregation Defenses against Data Poisoning
Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。
データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。
ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文 参考訳(メタデータ) (2023-06-28T17:59:35Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z) - Provable Defense Against Delusive Poisoning [64.69220849669948]
本研究は, 対人訓練が妄想性中毒に対する防御法であることを示す。
これは、敵の訓練が妄想的中毒に対する原則的な防御方法であることを意味している。
論文 参考訳(メタデータ) (2021-02-09T09:19:47Z) - Data Poisoning Attacks on Regression Learning and Corresponding Defenses [0.0]
逆データ中毒は機械学習に対する効果的な攻撃であり、トレーニングデータセットに有毒データを導入することでモデルの完全性を脅かす。
データ中毒攻撃が生産システムに脅威を与え、新たなブラックボックス攻撃をもたらす現実的なシナリオを提示する。
その結果, 残留剤の平均二乗誤差(MSE)は, わずか2%の毒素を挿入することにより150パーセントに増加することがわかった。
論文 参考訳(メタデータ) (2020-09-15T12:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。