論文の概要: Adversarial Attacks to Reward Machine-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.09014v1
- Date: Wed, 15 Nov 2023 14:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:30:08.965105
- Title: Adversarial Attacks to Reward Machine-based Reinforcement Learning
- Title(参考訳): Reward Machine-based Reinforcement Learning に対する逆攻撃
- Authors: Lorenzo Nodari
- Abstract要約: RMを用いた強化学習技術の安全性を第一に分析することを目的としている。
本研究は,RMに基づく新たな攻撃手法であるブラインド攻撃について提案し,評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Reward Machines (RMs) have stood out as a simple yet
effective automata-based formalism for exposing and exploiting task structure
in reinforcement learning settings. Despite their relevance, little to no
attention has been directed to the study of their security implications and
robustness to adversarial scenarios, likely due to their recent appearance in
the literature. With my thesis, I aim to provide the first analysis of the
security of RM-based reinforcement learning techniques, with the hope of
motivating further research in the field, and I propose and evaluate a novel
class of attacks on RM-based techniques: blinding attacks.
- Abstract(参考訳): 近年、Reward Machines (RM) は、強化学習環境におけるタスク構造を公開・活用するための、シンプルで効果的なオートマトンベースのフォーマリズムとして際立っている。
関連があるにも拘わらず、最近の文献の出現により、その安全保障的意義と敵対的シナリオに対する堅牢性の研究にほとんど注意が向けられていない。
本稿では,この分野におけるさらなる研究の動機づけを目的として,rmベース強化学習技術の安全性に関する最初の分析を行い,rmベースの手法に対する新たな攻撃クラスであるブラインドアタックを提案し,評価する。
関連論文リスト
- In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations [0.0]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な機能を示しているが、Jailbreak攻撃に対する脆弱性は重大なセキュリティリスクをもたらす。
本稿では,Large Language Model (LLM) のレッドチームにおける攻撃戦略と防御機構の最近の進歩を包括的に分析する。
論文 参考訳(メタデータ) (2024-10-09T01:35:38Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - Recent Advances in Attack and Defense Approaches of Large Language Models [27.271665614205034]
大規模言語モデル(LLM)は、高度なテキスト処理と生成機能を通じて、人工知能と機械学習に革命をもたらした。
彼らの広範な展開は、重大な安全性と信頼性の懸念を引き起こした。
本稿は,LLMの脆弱性と脅威に関する最近の研究をレビューし,現代防衛機構の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-05T06:31:37Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - Designing an attack-defense game: how to increase robustness of
financial transaction models via a competition [69.08339915577206]
金融セクターにおける悪意ある攻撃のエスカレートリスクを考えると、機械学習モデルの敵戦略と堅牢な防御メカニズムを理解することが重要である。
本研究の目的は、逐次的な財務データを入力として使用するニューラルネットワークモデルに対する敵攻撃と防御の現状とダイナミクスを調査することである。
我々は、現代の金融取引データにおける問題の現実的かつ詳細な調査を可能にする競争を設計した。
参加者は直接対決するので、実生活に近い環境で攻撃や防御が検討される。
論文 参考訳(メタデータ) (2023-08-22T12:53:09Z) - Adversarial Attacks and Defenses in Machine Learning-Powered Networks: A
Contemporary Survey [114.17568992164303]
機械学習とディープニューラルネットワークにおけるアドリアックと防御が注目されている。
本調査は、敵攻撃・防衛技術分野における最近の進歩を包括的に概観する。
検索ベース、意思決定ベース、ドロップベース、物理世界攻撃など、新たな攻撃方法も検討されている。
論文 参考訳(メタデータ) (2023-03-11T04:19:31Z) - Towards Evaluating the Robustness of Neural Networks Learned by
Transduction [44.189248766285345]
Greedy Model Space Attack (GMSA)は、トランスダクティブ学習に基づく防御を評価するための新しいベースラインとして機能する攻撃フレームワークである。
GMSAは, 弱いインスタンス化であっても, 従来のトランスダクティブ・ラーニングに基づく防御を破ることができることを示す。
論文 参考訳(メタデータ) (2021-10-27T19:39:50Z) - Where Did You Learn That From? Surprising Effectiveness of Membership
Inference Attacks Against Temporally Correlated Data in Deep Reinforcement
Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。
本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-08T23:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。