論文の概要: Assessing the Robustness of Intelligence-Driven Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.09027v1
- Date: Wed, 15 Nov 2023 15:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:32:02.465811
- Title: Assessing the Robustness of Intelligence-Driven Reinforcement Learning
- Title(参考訳): インテリジェンス駆動強化学習のロバスト性の評価
- Authors: Lorenzo Nodari and Federico Cerutti
- Abstract要約: 本稿では,報奨機に基づくインテリジェンス駆動型強化学習の堅牢性の問題について考察する。
予備的な結果は、現在最先端の強化学習アプローチを強化するために、明らかな推論と学習のさらなる研究の必要性を示唆している。
- 参考スコア(独自算出の注目度): 4.704752668333436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robustness to noise is of utmost importance in reinforcement learning
systems, particularly in military contexts where high stakes and uncertain
environments prevail. Noise and uncertainty are inherent features of military
operations, arising from factors such as incomplete information, adversarial
actions, or unpredictable battlefield conditions. In RL, noise can critically
impact decision-making, mission success, and the safety of personnel. Reward
machines offer a powerful tool to express complex reward structures in RL
tasks, enabling the design of tailored reinforcement signals that align with
mission objectives. This paper considers the problem of the robustness of
intelligence-driven reinforcement learning based on reward machines. The
preliminary results presented suggest the need for further research in
evidential reasoning and learning to harden current state-of-the-art
reinforcement learning approaches before being mission-critical-ready.
- Abstract(参考訳): 雑音に対するロバスト性は強化学習システム、特に高利害と不確定な環境が優勢な軍事的文脈において最も重要である。
騒音と不確実性は軍事作戦の本質的な特徴であり、不完全な情報、敵対行動、予測不能な戦場条件などの要因から生じる。
RLでは、ノイズは意思決定、ミッションの成功、人員の安全に重大な影響を与える。
リワードマシンは、RLタスクにおける複雑な報酬構造を表現する強力なツールを提供し、ミッション目標に沿った調整された強化信号の設計を可能にする。
本稿では,報奨機に基づくインテリジェンス駆動型強化学習の堅牢性の問題について考察する。
その結果, 実証的推論と学習において, ミッションクリティカルな学習に先立って, 最先端の強化学習アプローチを強固にするためのさらなる研究が必要であることが示唆された。
関連論文リスト
- Comprehensive Overview of Reward Engineering and Shaping in Advancing Reinforcement Learning Applications [0.0]
本稿では,強化学習アルゴリズムの効率性と有効性を高めるために,報酬工学と報酬形成の重要性を強調する。
強化学習の大幅な進歩にもかかわらず、いくつかの制限が続いた。
主要な課題の1つは、多くの現実世界のシナリオにおける報酬のまばらで遅れた性質である。
実世界の環境を正確にモデル化することの複雑さと強化学習アルゴリズムの計算要求は、依然としてかなりの障害である。
論文 参考訳(メタデータ) (2024-07-22T09:28:12Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Robust Deep Reinforcement Learning Through Adversarial Attacks and
Training : A Survey [8.463282079069362]
Deep Reinforcement Learning (DRL)は、さまざまな複雑な環境で自律エージェントを訓練するためのアプローチである。
微妙な条件の変化の影響を受けながらも、現実のアプリケーションにおける信頼性への懸念が高まっている。
DRLの未知の変化に対するロバスト性を改善する方法として, 対人訓練がある。
論文 参考訳(メタデータ) (2024-03-01T10:16:46Z) - Causal Reinforcement Learning: A Survey [57.368108154871]
強化学習は、不確実性の下でのシーケンシャルな決定問題の解決に不可欠なパラダイムである。
主な障害の1つは、強化学習エージェントが世界に対する根本的な理解を欠いていることである。
因果性は、体系的な方法で知識を形式化できるという点で顕著な利点がある。
論文 参考訳(メタデータ) (2023-07-04T03:00:43Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Where Did You Learn That From? Surprising Effectiveness of Membership
Inference Attacks Against Temporally Correlated Data in Deep Reinforcement
Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。
本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-08T23:44:57Z) - Intrinsically Motivated Self-supervised Learning in Reinforcement
Learning [15.809835721792687]
視覚に基づく強化学習(RL)タスクでは、補助タスクに自己監督的損失を割り当てることが一般的である。
強化学習(IM-SSR)における本質的動機づけ型自己監督学習(Intivically Motivated Self-Supervised Learning)という,自己監督的損失を本質的な報酬として活用する,シンプルかつ効果的なアイデアを提案する。
自己監督的損失は、新しい状態の探索やニュアンス除去による改善として堅牢性を示す。
論文 参考訳(メタデータ) (2021-06-26T08:43:28Z) - Reinforcement Learning for Robust Missile Autopilot Design [0.0]
この研究は、飛行制御のフレームワークとして強化学習を提案する先駆者である。
TRPOの手法では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
その結果、最適な性能を達成し、不確実性に対するエージェントの堅牢性を改善することが可能であることがわかった。
論文 参考訳(メタデータ) (2020-11-26T09:30:04Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。