Fugu-MT 論文翻訳(概要): Adversarial Attacks to Reward Machine-based Reinforcement Learning

論文の概要: Adversarial Attacks to Reward Machine-based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2311.09014v1
Date: Wed, 15 Nov 2023 14:56:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 15:30:08.965105
Title: Adversarial Attacks to Reward Machine-based Reinforcement Learning
Title（参考訳）: Reward Machine-based Reinforcement Learning に対する逆攻撃
Authors: Lorenzo Nodari
Abstract要約: RMを用いた強化学習技術の安全性を第一に分析することを目的としている。本研究は,RMに基づく新たな攻撃手法であるブラインド攻撃について提案し,評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, Reward Machines (RMs) have stood out as a simple yet effective automata-based formalism for exposing and exploiting task structure in reinforcement learning settings. Despite their relevance, little to no attention has been directed to the study of their security implications and robustness to adversarial scenarios, likely due to their recent appearance in the literature. With my thesis, I aim to provide the first analysis of the security of RM-based reinforcement learning techniques, with the hope of motivating further research in the field, and I propose and evaluate a novel class of attacks on RM-based techniques: blinding attacks.
Abstract（参考訳）: 近年、Reward Machines (RM) は、強化学習環境におけるタスク構造を公開・活用するための、シンプルで効果的なオートマトンベースのフォーマリズムとして際立っている。関連があるにも拘わらず、最近の文献の出現により、その安全保障的意義と敵対的シナリオに対する堅牢性の研究にほとんど注意が向けられていない。本稿では,この分野におけるさらなる研究の動機づけを目的として,rmベース強化学習技術の安全性に関する最初の分析を行い,rmベースの手法に対する新たな攻撃クラスであるブラインドアタックを提案し,評価する。

関連論文リスト

Techniques of Modern Attacks [51.56484100374058]
Advanced Persistent Threats (APT) は特定の標的を狙った複雑な攻撃方法である。本稿では,近年の学術研究で提案されている攻撃ライフサイクルと最先端の検知・防衛戦略について検討する。それぞれのアプローチの長所と短所を強調し、より適応的なAPT緩和戦略を提案する。
論文参考訳（メタデータ） (2026-01-19T22:15:25Z)
A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives [65.3369988566853]
近年の研究では、敵が対象モデルの機能を複製できることが示されている。モデル抽出攻撃は知的財産権、プライバシー、システムのセキュリティに脅威をもたらす。本稿では,攻撃機構,防衛手法,計算環境に応じてMEAを分類する新しい分類法を提案する。
論文参考訳（メタデータ） (2025-08-20T19:49:59Z)
A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文参考訳（メタデータ） (2025-06-26T22:02:01Z)
LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures [49.1574468325115]
本調査は,大規模言語モデル(LLM)を対象とした各種攻撃を定義し,分類することを目的とする。これらの攻撃を徹底的に分析し、そのような脅威を軽減するために設計された防御機構を探索する。
論文参考訳（メタデータ） (2025-05-02T10:35:26Z)
A Survey of Model Extraction Attacks and Defenses in Distributed Computing Environments [55.60375624503877]
モデル抽出攻撃(MEA)は、敵がモデルを盗み、知的財産と訓練データを公開することによって、現代の機械学習システムを脅かす。この調査は、クラウド、エッジ、フェデレーションのユニークな特性がどのように攻撃ベクトルや防御要件を形作るのかを、緊急に理解する必要に起因している。本研究は, 自動運転車, 医療, 金融サービスといった重要な分野において, 環境要因がセキュリティ戦略にどう影響するかを実証し, 攻撃手法と防衛機構の進化を系統的に検討する。
論文参考訳（メタデータ） (2025-02-22T03:46:50Z)
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。 ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文参考訳（メタデータ） (2024-11-25T04:17:24Z)
Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations [0.0]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な機能を示しているが、Jailbreak攻撃に対する脆弱性は重大なセキュリティリスクをもたらす。本稿では,Large Language Model (LLM) のレッドチームにおける攻撃戦略と防御機構の最近の進歩を包括的に分析する。
論文参考訳（メタデータ） (2024-10-09T01:35:38Z)
Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2024-09-23T10:18:10Z)
Recent Advances in Attack and Defense Approaches of Large Language Models [27.271665614205034]
大規模言語モデル(LLM)は、高度なテキスト処理と生成機能を通じて、人工知能と機械学習に革命をもたらした。彼らの広範な展開は、重大な安全性と信頼性の懸念を引き起こした。本稿は,LLMの脆弱性と脅威に関する最近の研究をレビューし,現代防衛機構の有効性を評価する。
論文参考訳（メタデータ） (2024-09-05T06:31:37Z)
Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。 ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文参考訳（メタデータ） (2024-02-03T14:20:20Z)
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文参考訳（メタデータ） (2023-10-16T21:37:24Z)
Designing an attack-defense game: how to increase robustness of financial transaction models via a competition [69.08339915577206]
金融セクターにおける悪意ある攻撃のエスカレートリスクを考えると、機械学習モデルの敵戦略と堅牢な防御メカニズムを理解することが重要である。本研究の目的は、逐次的な財務データを入力として使用するニューラルネットワークモデルに対する敵攻撃と防御の現状とダイナミクスを調査することである。我々は、現代の金融取引データにおける問題の現実的かつ詳細な調査を可能にする競争を設計した。参加者は直接対決するので、実生活に近い環境で攻撃や防御が検討される。
論文参考訳（メタデータ） (2023-08-22T12:53:09Z)
Adversarial Attacks and Defenses in Machine Learning-Powered Networks: A Contemporary Survey [114.17568992164303]
機械学習とディープニューラルネットワークにおけるアドリアックと防御が注目されている。本調査は、敵攻撃・防衛技術分野における最近の進歩を包括的に概観する。検索ベース、意思決定ベース、ドロップベース、物理世界攻撃など、新たな攻撃方法も検討されている。
論文参考訳（メタデータ） (2023-03-11T04:19:31Z)
Towards Evaluating the Robustness of Neural Networks Learned by Transduction [44.189248766285345]
Greedy Model Space Attack (GMSA)は、トランスダクティブ学習に基づく防御を評価するための新しいベースラインとして機能する攻撃フレームワークである。 GMSAは, 弱いインスタンス化であっても, 従来のトランスダクティブ・ラーニングに基づく防御を破ることができることを示す。
論文参考訳（メタデータ） (2021-10-27T19:39:50Z)
Where Did You Learn That From? Surprising Effectiveness of Membership Inference Attacks Against Temporally Correlated Data in Deep Reinforcement Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-08T23:44:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。