論文の概要: Explaining Online Reinforcement Learning Decisions of Self-Adaptive
Systems
- arxiv url: http://arxiv.org/abs/2210.05931v1
- Date: Wed, 12 Oct 2022 05:38:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:25:26.428676
- Title: Explaining Online Reinforcement Learning Decisions of Self-Adaptive
Systems
- Title(参考訳): 自己適応システムのオンライン強化学習決定の説明
- Authors: Felix Feit and Andreas Metzger and Klaus Pohl
- Abstract要約: 設計時間の不確実性は、自己適応型システムを開発する際に重要な課題となる。
オンライン強化学習は、設計時間の不確実性の存在下で自己適応システムを実現するための新しいアプローチである。
Deep RLは学習知識をニューラルネットワークとして表現し、目に見えない入力を一般化する。
- 参考スコア(独自算出の注目度): 0.90238471756546
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Design time uncertainty poses an important challenge when developing a
self-adaptive system. As an example, defining how the system should adapt when
facing a new environment state, requires understanding the precise effect of an
adaptation, which may not be known at design time. Online reinforcement
learning, i.e., employing reinforcement learning (RL) at runtime, is an
emerging approach to realizing self-adaptive systems in the presence of design
time uncertainty. By using Online RL, the self-adaptive system can learn from
actual operational data and leverage feedback only available at runtime.
Recently, Deep RL is gaining interest. Deep RL represents learned knowledge as
a neural network whereby it can generalize over unseen inputs, as well as
handle continuous environment states and adaptation actions. A fundamental
problem of Deep RL is that learned knowledge is not explicitly represented. For
a human, it is practically impossible to relate the parametrization of the
neural network to concrete RL decisions and thus Deep RL essentially appears as
a black box. Yet, understanding the decisions made by Deep RL is key to (1)
increasing trust, and (2) facilitating debugging. Such debugging is especially
relevant for self-adaptive systems, because the reward function, which
quantifies the feedback to the RL algorithm, must be defined by developers. The
reward function must be explicitly defined by developers, thus introducing a
potential for human error. To explain Deep RL for self-adaptive systems, we
enhance and combine two existing explainable RL techniques from the machine
learning literature. The combined technique, XRL-DINE, overcomes the respective
limitations of the individual techniques. We present a proof-of-concept
implementation of XRL-DINE, as well as qualitative and quantitative results of
applying XRL-DINE to a self-adaptive system exemplar.
- Abstract(参考訳): 設計時間の不確実性は、自己適応システムを開発する際に重要な課題となる。
例えば、新しい環境状態に直面した時にシステムがどのように適応すべきかを定義するには、設計時に知られていない適応の正確な効果を理解する必要がある。
オンライン強化学習、すなわち、実行時に強化学習(RL)を採用することは、設計時間の不確実性の存在下で自己適応システムを実現するための新しいアプローチである。
Online RLを使用することで、自己適応システムは実際の運用データから学び、実行時にのみ利用可能なフィードバックを活用することができる。
近年、Deep RLが注目されている。
Deep RLは学習知識をニューラルネットワークとして表現し、目に見えない入力を一般化し、継続的な環境状態や適応アクションを処理する。
deep rlの根本的な問題は、学習知識が明示的に表現されていないことである。
人間にとって、ニューラルネットワークのパラメータ化と具体的なRLの決定を関連付けることは事実上不可能であり、したがってDeep RLは本質的にブラックボックスとして現れる。
しかし,Deep RLが行う決定を理解することは,(1)信頼の向上,(2)デバッグを容易にするための鍵となる。
このようなデバッグは、rlアルゴリズムへのフィードバックを定量化する報酬関数を開発者が定義しなければならないため、自己適応システムにとって特に意味がある。
報酬関数は開発者が明示的に定義しなければならないため、ヒューマンエラーの可能性がある。
自己適応システムのためのDeep RLを説明するために,機械学習の文献から既存の2つの説明可能なRL技術を拡張し,組み合わせる。
組み合わせたテクニックであるXRL-DINEは個々のテクニックの制限を克服する。
本稿では、XRL-DINEの概念実証と、XRL-DINEを自己適応システムに応用する質的かつ定量的な結果を提案する。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - A User Study on Explainable Online Reinforcement Learning for Adaptive
Systems [0.802904964931021]
オンライン強化学習(RL)は、設計時間の不確実性の存在下で適応システムの実現にますます利用されている。
深いRLが関心を持つようになると、学習された知識はもはや明示的に表現されるのではなく、ニューラルネットワークとして表現される。
XRL-DINEは、重要な時点において決定が下された理由に関する視覚的な洞察を提供する。
論文 参考訳(メタデータ) (2023-07-09T05:12:42Z) - A Survey on Explainable Reinforcement Learning: Concepts, Algorithms,
Challenges [38.70863329476517]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。
励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。
この問題を緩和するために、本質的な解釈可能性やポストホックな説明可能性を構築することにより、知的エージェントの内部動作に光を放つための大量の文献が提案されている。
論文 参考訳(メタデータ) (2022-11-12T13:52:06Z) - Entropy Regularized Reinforcement Learning with Cascading Networks [9.973226671536041]
Deep RLは関数近似器としてニューラルネットワークを使用する。
RLの大きな難しさの1つは、i.i.d.データの欠如である。
本研究では,ニューラルネットワークを用いた教師なし学習コミュニティの共通実践に挑戦する。
論文 参考訳(メタデータ) (2022-10-16T10:28:59Z) - Automated Reinforcement Learning (AutoRL): A Survey and Open Problems [92.73407630874841]
AutoRL(Automated Reinforcement Learning)には、AutoMLの標準的なアプリケーションだけでなく、RL特有の課題も含まれている。
我々は共通の分類法を提供し、各領域を詳細に議論し、今後の研究者にとって関心のあるオープンな問題を提起する。
論文 参考訳(メタデータ) (2022-01-11T12:41:43Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Heuristic-Guided Reinforcement Learning [31.056460162389783]
Tabula rasa RLアルゴリズムは、意思決定タスクの地平線に合わせてスケールする環境相互作用や計算を必要とする。
我々のフレームワークは、有限の相互作用予算の下でRLのバイアスと分散を制御するための地平線に基づく正規化と見なすことができる。
特に,従来の知識を超越してRLエージェントを外挿できる「改良可能な」新しい概念を導入する。
論文 参考訳(メタデータ) (2021-06-05T00:04:09Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Evolving Inborn Knowledge For Fast Adaptation in Dynamic POMDP Problems [5.23587935428994]
本稿では,POMDPにおける自己エンコーダの潜伏空間を利用した制御器を進化させるために,ニューラルネットワークの高度適応性を利用する。
生まれながらの知識とオンラインの可塑性の統合は、進化的でないメタ強化学習アルゴリズムと比較して、迅速な適応と性能の向上を可能にした。
論文 参考訳(メタデータ) (2020-04-27T14:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。