論文の概要: DINA: A Dual Defense Framework Against Internal Noise and External Attacks in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2508.05671v1
- Date: Mon, 04 Aug 2025 16:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.916318
- Title: DINA: A Dual Defense Framework Against Internal Noise and External Attacks in Natural Language Processing
- Title(参考訳): DINA:自然言語処理における内部ノイズと外部攻撃に対する二重防御フレームワーク
- Authors: Ko-Wei Chuang, Hen-Hsen Huang, Tsai-Yen Li,
- Abstract要約: 大規模言語モデル(LLM)と生成AIは、顧客サービスとモデレーションアプリケーションにますます統合される。
本研究では、DINA(Dual Defense against Internal Noise and Adversarial Attacks)を導入して、これらの二重敵の脅威を特定し、体系的に対処する。
提案手法は,コンピュータビジョンからの高度な雑音ラベル学習手法を適応し,それを対角訓練と統合することにより,内的ラベル妨害と外的対向的摂動を同時に緩和する。
- 参考スコア(独自算出の注目度): 12.279803315688218
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large language models (LLMs) and generative AI become increasingly integrated into customer service and moderation applications, adversarial threats emerge from both external manipulations and internal label corruption. In this work, we identify and systematically address these dual adversarial threats by introducing DINA (Dual Defense Against Internal Noise and Adversarial Attacks), a novel unified framework tailored specifically for NLP. Our approach adapts advanced noisy-label learning methods from computer vision and integrates them with adversarial training to simultaneously mitigate internal label sabotage and external adversarial perturbations. Extensive experiments conducted on a real-world dataset from an online gaming service demonstrate that DINA significantly improves model robustness and accuracy compared to baseline models. Our findings not only highlight the critical necessity of dual-threat defenses but also offer practical strategies for safeguarding NLP systems in realistic adversarial scenarios, underscoring broader implications for fair and responsible AI deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)と生成AIが顧客サービスとモデレーションアプリケーションに統合されるにつれて、外部操作と内部ラベルの汚職の両方から敵の脅威が出現する。
本研究では、NLPに特化した新しい統合フレームワークであるDINA(Dual Defense Against Internal Noise and Adversarial Attacks)を導入することにより、これらの二重敵の脅威を同定し、体系的に対処する。
提案手法は,コンピュータビジョンからの高度な雑音ラベル学習手法を適応し,それを対角訓練と統合することにより,内的ラベル妨害と外的対向的摂動を同時に緩和する。
オンラインゲームサービスによる実世界のデータセットで実施された大規模な実験により、DINAはベースラインモデルと比較してモデルロバスト性と精度を著しく向上することが示された。
我々の発見は、二重脅威防衛の重要な必要性を浮き彫りにするだけでなく、現実的な敵シナリオにおけるNLPシステムを保護するための実践的戦略も提供し、公正かつ責任あるAI展開に対するより広範な影響を浮き彫りにしている。
関連論文リスト
- Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks [23.881766496924502]
本稿では,エージェントと攻撃者の相互作用を2人のプレイヤーによるゼロサムマルコフゲームとして形式化し,両プレイヤーを3段階のパイプラインで協調訓練するフレームワークを提案する。
提案手法は,訓練ベースおよび即時防御の確立に優れていた。
論文 参考訳(メタデータ) (2026-03-04T18:29:54Z) - Contextualized Privacy Defense for LLM Agents [84.30907378390512]
LLMエージェントはますますユーザーの個人情報に作用するが、既存のプライバシー保護は設計と適応性の両方において制限されている。
我々は,新たなプライバシ防衛パラダイムであるCDI(Contextualized Defense Instructing)を提案する。
我々のCDIは、ベースラインよりもプライバシー保護(94.2%)と有用性(80.6%)のバランスが良好であることを示します。
論文 参考訳(メタデータ) (2026-03-03T13:35:33Z) - Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective [31.55000083809067]
私たちは、ゲーム理論による抑止がAIを積極的に監視し、リスクを認識し、操作に対して回復力を与える方法を示します。
本稿では,(1)データ/フィードバック中毒に対するトレーニング時間監査,(2)制約されたレビュアーリソースによる事前デプロイ評価,(3)敵環境における堅牢なマルチモデル展開について報告する。
論文 参考訳(メタデータ) (2026-02-06T23:20:26Z) - Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization [51.12422886183246]
大規模言語モデル(LLM)は、Webサービスにおいて急速に発展し、社会的リスクを増幅しつつ、前例のない能力を提供してきた。
既存の作業は、分離されたジェイルブレイク攻撃または静的防御に重点を置いており、現実世界のWebコンテキストにおける進化する脅威とセーフガードの間の動的な相互作用を無視している。
ACE-Safetyは、2つの重要な革新的手順をシームレスに統合することにより、攻撃と防御モデルを協調的に最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T15:23:41Z) - Debiased Dual-Invariant Defense for Adversarially Robust Person Re-Identification [52.63017280231648]
人物再識別(ReID)は、歩行者軌道追跡などの現実の多くの応用において、基本的な課題である。
Person ReIDモデルは、歩行者画像に対する知覚不能な摂動が完全に誤った予測を引き起こすような、敵の攻撃に非常に敏感である。
本稿では,2つの相からなる二重不変防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-13T03:56:40Z) - Neutral Agent-based Adversarial Policy Learning against Deep Reinforcement Learning in Multi-party Open Systems [3.431456142488844]
マルチパーティオープンシステムにおける様々なタスクシナリオにまたがる中立的エージェントベースアプローチを提案する。
本稿では,Starcraft II と自律走行シミュレーションプラットフォーム Highway-env に基づく SMAC プラットフォーム上で提案手法を評価する。
論文 参考訳(メタデータ) (2025-10-13T02:53:22Z) - Rethinking Data Protection in the (Generative) Artificial Intelligence Era [115.71019708491386]
現代の(生産的な)AIモデルやシステムに生じる多様な保護ニーズを捉える4段階の分類法を提案する。
当社のフレームワークは、データユーティリティとコントロールのトレードオフに関する構造化された理解を提供し、AIパイプライン全体にわたっています。
論文 参考訳(メタデータ) (2025-07-03T02:45:51Z) - Preventing Adversarial AI Attacks Against Autonomous Situational Awareness: A Maritime Case Study [0.0]
アドリラル人工知能(AI)による攻撃は、自律走行に重大な脅威をもたらす。
本稿では、敵対的AIに関連する3つの重要な研究課題に対処する。
本稿では,複数入力とデータ融合を利用して防御部品を構築できるビルディングディフェンスを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:59:05Z) - Reformulation is All You Need: Addressing Malicious Text Features in DNNs [53.45564571192014]
本稿では,敵攻撃とバックドア攻撃の両方に対して有効な,統一的かつ適応的な防御フレームワークを提案する。
我々のフレームワークは、様々な悪意あるテキスト機能において、既存のサンプル指向の防御基準よりも優れています。
論文 参考訳(メタデータ) (2025-02-02T03:39:43Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - A Novel Approach to Guard from Adversarial Attacks using Stable Diffusion [0.0]
我々の提案は、AI Guardianフレームワークに対する別のアプローチを提案する。
トレーニングプロセスに敵対的な例を含める代わりに、AIシステムをトレーニングせずに行うことを提案する。
これは、より広い範囲の攻撃に対して本質的に回復力のあるシステムを構築することを目的としています。
論文 参考訳(メタデータ) (2024-05-03T04:08:15Z) - CANEDERLI: On The Impact of Adversarial Training and Transferability on CAN Intrusion Detection Systems [17.351539765989433]
車両と外部ネットワークの統合が拡大し、コントロールエリアネットワーク(CAN)の内部バスをターゲットにした攻撃が急増した。
対策として,様々な侵入検知システム(IDS)が文献で提案されている。
これらのシステムのほとんどは、機械学習(ML)やディープラーニング(DL)モデルのような、データ駆動のアプローチに依存しています。
本稿では,CANベースのIDSをセキュアにするための新しいフレームワークであるCANEDERLIを提案する。
論文 参考訳(メタデータ) (2024-04-06T14:54:11Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。