論文の概要: DINA: A Dual Defense Framework Against Internal Noise and External Attacks in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2508.05671v1
- Date: Mon, 04 Aug 2025 16:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.916318
- Title: DINA: A Dual Defense Framework Against Internal Noise and External Attacks in Natural Language Processing
- Title(参考訳): DINA:自然言語処理における内部ノイズと外部攻撃に対する二重防御フレームワーク
- Authors: Ko-Wei Chuang, Hen-Hsen Huang, Tsai-Yen Li,
- Abstract要約: 大規模言語モデル(LLM)と生成AIは、顧客サービスとモデレーションアプリケーションにますます統合される。
本研究では、DINA(Dual Defense against Internal Noise and Adversarial Attacks)を導入して、これらの二重敵の脅威を特定し、体系的に対処する。
提案手法は,コンピュータビジョンからの高度な雑音ラベル学習手法を適応し,それを対角訓練と統合することにより,内的ラベル妨害と外的対向的摂動を同時に緩和する。
- 参考スコア(独自算出の注目度): 12.279803315688218
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large language models (LLMs) and generative AI become increasingly integrated into customer service and moderation applications, adversarial threats emerge from both external manipulations and internal label corruption. In this work, we identify and systematically address these dual adversarial threats by introducing DINA (Dual Defense Against Internal Noise and Adversarial Attacks), a novel unified framework tailored specifically for NLP. Our approach adapts advanced noisy-label learning methods from computer vision and integrates them with adversarial training to simultaneously mitigate internal label sabotage and external adversarial perturbations. Extensive experiments conducted on a real-world dataset from an online gaming service demonstrate that DINA significantly improves model robustness and accuracy compared to baseline models. Our findings not only highlight the critical necessity of dual-threat defenses but also offer practical strategies for safeguarding NLP systems in realistic adversarial scenarios, underscoring broader implications for fair and responsible AI deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)と生成AIが顧客サービスとモデレーションアプリケーションに統合されるにつれて、外部操作と内部ラベルの汚職の両方から敵の脅威が出現する。
本研究では、NLPに特化した新しい統合フレームワークであるDINA(Dual Defense Against Internal Noise and Adversarial Attacks)を導入することにより、これらの二重敵の脅威を同定し、体系的に対処する。
提案手法は,コンピュータビジョンからの高度な雑音ラベル学習手法を適応し,それを対角訓練と統合することにより,内的ラベル妨害と外的対向的摂動を同時に緩和する。
オンラインゲームサービスによる実世界のデータセットで実施された大規模な実験により、DINAはベースラインモデルと比較してモデルロバスト性と精度を著しく向上することが示された。
我々の発見は、二重脅威防衛の重要な必要性を浮き彫りにするだけでなく、現実的な敵シナリオにおけるNLPシステムを保護するための実践的戦略も提供し、公正かつ責任あるAI展開に対するより広範な影響を浮き彫りにしている。
関連論文リスト
- Rethinking Data Protection in the (Generative) Artificial Intelligence Era [115.71019708491386]
現代の(生産的な)AIモデルやシステムに生じる多様な保護ニーズを捉える4段階の分類法を提案する。
当社のフレームワークは、データユーティリティとコントロールのトレードオフに関する構造化された理解を提供し、AIパイプライン全体にわたっています。
論文 参考訳(メタデータ) (2025-07-03T02:45:51Z) - Preventing Adversarial AI Attacks Against Autonomous Situational Awareness: A Maritime Case Study [0.0]
アドリラル人工知能(AI)による攻撃は、自律走行に重大な脅威をもたらす。
本稿では、敵対的AIに関連する3つの重要な研究課題に対処する。
本稿では,複数入力とデータ融合を利用して防御部品を構築できるビルディングディフェンスを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:59:05Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - A Novel Approach to Guard from Adversarial Attacks using Stable Diffusion [0.0]
我々の提案は、AI Guardianフレームワークに対する別のアプローチを提案する。
トレーニングプロセスに敵対的な例を含める代わりに、AIシステムをトレーニングせずに行うことを提案する。
これは、より広い範囲の攻撃に対して本質的に回復力のあるシステムを構築することを目的としています。
論文 参考訳(メタデータ) (2024-05-03T04:08:15Z) - CANEDERLI: On The Impact of Adversarial Training and Transferability on CAN Intrusion Detection Systems [17.351539765989433]
車両と外部ネットワークの統合が拡大し、コントロールエリアネットワーク(CAN)の内部バスをターゲットにした攻撃が急増した。
対策として,様々な侵入検知システム(IDS)が文献で提案されている。
これらのシステムのほとんどは、機械学習(ML)やディープラーニング(DL)モデルのような、データ駆動のアプローチに依存しています。
本稿では,CANベースのIDSをセキュアにするための新しいフレームワークであるCANEDERLIを提案する。
論文 参考訳(メタデータ) (2024-04-06T14:54:11Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。