論文の概要: A User Study on Explainable Online Reinforcement Learning for Adaptive
Systems
- arxiv url: http://arxiv.org/abs/2307.04098v1
- Date: Sun, 9 Jul 2023 05:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 15:29:24.109296
- Title: A User Study on Explainable Online Reinforcement Learning for Adaptive
Systems
- Title(参考訳): 適応型システムのための説明可能なオンライン強化学習に関する研究
- Authors: Andreas Metzger and Jan Laufer and Felix Feit and Klaus Pohl
- Abstract要約: オンライン強化学習(RL)は、設計時間の不確実性の存在下で適応システムの実現にますます利用されている。
深いRLが関心を持つようになると、学習された知識はもはや明示的に表現されるのではなく、ニューラルネットワークとして表現される。
XRL-DINEは、重要な時点において決定が下された理由に関する視覚的な洞察を提供する。
- 参考スコア(独自算出の注目度): 0.802904964931021
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Online reinforcement learning (RL) is increasingly used for realizing
adaptive systems in the presence of design time uncertainty. Online RL
facilitates learning from actual operational data and thereby leverages
feedback only available at runtime. However, Online RL requires the definition
of an effective and correct reward function, which quantifies the feedback to
the RL algorithm and thereby guides learning. With Deep RL gaining interest,
the learned knowledge is no longer explicitly represented, but is represented
as a neural network. For a human, it becomes practically impossible to relate
the parametrization of the neural network to concrete RL decisions. Deep RL
thus essentially appears as a black box, which severely limits the debugging of
adaptive systems. We previously introduced the explainable RL technique
XRL-DINE, which provides visual insights into why certain decisions were made
at important time points. Here, we introduce an empirical user study involving
54 software engineers from academia and industry to assess (1) the performance
of software engineers when performing different tasks using XRL-DINE and (2)
the perceived usefulness and ease of use of XRL-DINE.
- Abstract(参考訳): オンライン強化学習(RL)は、設計時間の不確実性の存在下で適応システムの実現にますます利用されている。
オンラインRLは実際の運用データからの学習を容易にし、実行時にのみ利用できるフィードバックを活用する。
しかし、オンラインRLは、RLアルゴリズムへのフィードバックを定量化し、学習をガイドする効果的な報酬関数の定義を必要とする。
deep rlへの関心が高まるにつれ、学習知識はもはや明示的に表現されるものではなく、ニューラルネットワークとして表現される。
人間にとって、ニューラルネットワークのパラメータ化と具体的なRL決定を関連付けることは事実上不可能になる。
したがって、Deep RLは本質的にブラックボックスとして現れ、適応システムのデバッグを著しく制限する。
我々は以前、重要な時点において決定が下された理由についての視覚的な洞察を提供する説明可能なRL技術であるXRL-DINEを紹介した。
本稿では,学術・産業系ソフトウェア技術者54名を対象に,(1)XRL-DINEを用いて異なるタスクを遂行する際のソフトウェア技術者の性能評価を行い,(2)XRL-DINEの有用性と使いやすさについて考察する。
関連論文リスト
- RLInspect: An Interactive Visual Approach to Assess Reinforcement Learning Algorithm [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の急速に成長する分野である。
RLモデルを評価することは困難であり、その振る舞いを理解するのが難しくなる。
我々はインタラクティブな視覚分析ツールであるRLInspectを開発した。
RLモデルのさまざまなコンポーネント - 状態、アクション、エージェントアーキテクチャ、報酬 - を考慮しており、RLトレーニングのより包括的なビューを提供する。
論文 参考訳(メタデータ) (2024-11-13T07:24:14Z) - Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。
U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。
U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-08-27T05:23:45Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Abstracted Trajectory Visualization for Explainability in Reinforcement
Learning [2.1028463367241033]
説明可能なAI(XAI)は、強化学習(RL)実践者がRLモデルがどのように機能するかを理解するのに役立つ可能性を実証している。
RLの専門知識を持たないユーザ(非RLの専門家)のためのXAIは、十分に研究されていない。
我々は、RLモデルの主要な状態間の遷移を描写した抽象軌道は、非RLの専門家がエージェントのメンタルモデルを構築するのに役立つと論じる。
論文 参考訳(メタデータ) (2024-02-05T21:17:44Z) - A Survey on Explainable Reinforcement Learning: Concepts, Algorithms,
Challenges [38.70863329476517]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。
励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。
この問題を緩和するために、本質的な解釈可能性やポストホックな説明可能性を構築することにより、知的エージェントの内部動作に光を放つための大量の文献が提案されている。
論文 参考訳(メタデータ) (2022-11-12T13:52:06Z) - Explaining Online Reinforcement Learning Decisions of Self-Adaptive
Systems [0.90238471756546]
設計時間の不確実性は、自己適応型システムを開発する際に重要な課題となる。
オンライン強化学習は、設計時間の不確実性の存在下で自己適応システムを実現するための新しいアプローチである。
Deep RLは学習知識をニューラルネットワークとして表現し、目に見えない入力を一般化する。
論文 参考訳(メタデータ) (2022-10-12T05:38:27Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。