論文の概要: Explainable robotic systems: Understanding goal-driven actions in a
reinforcement learning scenario
- arxiv url: http://arxiv.org/abs/2006.13615v3
- Date: Thu, 2 Sep 2021 07:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:07:08.435273
- Title: Explainable robotic systems: Understanding goal-driven actions in a
reinforcement learning scenario
- Title(参考訳): 説明可能なロボットシステム:強化学習シナリオにおける目標駆動行動の理解
- Authors: Francisco Cruz and Richard Dazeley and Peter Vamplew and Ithan Moreira
- Abstract要約: 強化学習のシナリオでは、データ駆動アプローチによる説明の提供に多くの努力が注がれている。
本研究では,ロボットシナリオにおけるタスクを実行する強化学習エージェントの意思決定プロセスに焦点をあてる。
我々は、メモリベース、学習ベース、イントロスペクションベースの3つの異なるアプローチによって計算される成功確率を利用する。
- 参考スコア(独自算出の注目度): 1.671353192305391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic systems are more present in our society everyday. In human-robot
environments, it is crucial that end-users may correctly understand their
robotic team-partners, in order to collaboratively complete a task. To increase
action understanding, users demand more explainability about the decisions by
the robot in particular situations. Recently, explainable robotic systems have
emerged as an alternative focused not only on completing a task satisfactorily,
but also on justifying, in a human-like manner, the reasons that lead to making
a decision. In reinforcement learning scenarios, a great effort has been
focused on providing explanations using data-driven approaches, particularly
from the visual input modality in deep learning-based systems. In this work, we
focus rather on the decision-making process of reinforcement learning agents
performing a task in a robotic scenario. Experimental results are obtained
using 3 different set-ups, namely, a deterministic navigation task, a
stochastic navigation task, and a continuous visual-based sorting object task.
As a way to explain the goal-driven robot's actions, we use the probability of
success computed by three different proposed approaches: memory-based,
learning-based, and introspection-based. The difference between these
approaches is the amount of memory required to compute or estimate the
probability of success as well as the kind of reinforcement learning
representation where they could be used. In this regard, we use the
memory-based approach as a baseline since it is obtained directly from the
agent's observations. When comparing the learning-based and the
introspection-based approaches to this baseline, both are found to be suitable
alternatives to compute the probability of success, obtaining high levels of
similarity when compared using both the Pearson's correlation and the mean
squared error.
- Abstract(参考訳): ロボットシステムは私たちの社会に毎日存在している。
人間ロボット環境では、エンドユーザーがロボットチームパートナーを正しく理解し、タスクを協調的に完了させることが重要である。
アクション理解を高めるために、ユーザーは特定の状況においてロボットによる決定についてより説明可能性を要求する。
近年、説明可能なロボットシステムは、タスクを満足して完了させるだけでなく、人間のような方法で正当化することに焦点を当てた代替手段として登場した。
強化学習のシナリオでは、特に深層学習システムにおける視覚的入力モダリティから、データ駆動アプローチを用いた説明を提供することに重点が置かれている。
本研究では,ロボットシナリオにおけるタスクを実行する強化学習エージェントの意思決定プロセスに焦点をあてる。
実験結果は、3つの異なるセットアップ、すなわち決定論的ナビゲーションタスク、確率的ナビゲーションタスク、連続的な視覚に基づくソートオブジェクトタスクを用いて得られる。
目標駆動型ロボットの動作を説明する手段として、メモリベース、学習ベース、イントロスペクションベースの3つの異なるアプローチによって計算される成功確率を用いる。
これらのアプローチの違いは、成功の確率の計算や推定に必要なメモリ量と、それらが使用できる強化学習表現の種類である。
この点において、エージェントの観察から直接得られるため、メモリベースのアプローチをベースラインとして使用する。
このベースラインに対する学習ベースとイントロスペクションベースのアプローチを比較すると、両者は成功確率を計算するのに適した代替手段であり、ピアソンの相関と平均二乗誤差の両方を用いて比較すると高いレベルの類似性が得られる。
関連論文リスト
- Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - On-Robot Bayesian Reinforcement Learning for POMDPs [16.667924736270415]
本稿では,ロボット工学におけるベイズ強化学習を,物理システムのための特殊フレームワークの提案により進める。
この知識を因子表現で捉え、後続の分解を同様の形で示し、最終的にベイズ的枠組みでモデルを定式化する。
次に,モンテカルロ木探索と粒子フィルタリングに基づくサンプルベースオンライン解法を提案する。
論文 参考訳(メタデータ) (2023-07-22T01:16:29Z) - Explaining Agent's Decision-making in a Hierarchical Reinforcement
Learning Scenario [0.6643086804649938]
強化学習(Reinforcement learning)は、行動心理学に基づく機械学習手法である。
本研究では,サブタスクからなる階層環境において,メモリベースで説明可能な強化学習手法を利用する。
論文 参考訳(メタデータ) (2022-12-14T01:18:45Z) - Discovering Unsupervised Behaviours from Full-State Trajectories [1.827510863075184]
本稿では,自律的に行動特性を見出す品質多様性アルゴリズムとして,自律型ロボットの能力を実現する手法を提案する。
本手法は,ロボットが実状態の軌道から自律的にその能力を見いださなければならないシミュレーションロボット環境において評価する。
より具体的には、分析されたアプローチは、ロボットを多様な位置に移動させるポリシーを自律的に見つけるだけでなく、脚を多様な方法で活用し、ハーフロールも行う。
論文 参考訳(メタデータ) (2022-11-22T16:57:52Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Probabilistic Active Meta-Learning [15.432006404678981]
先行経験に基づくタスク選択をメタ学習アルゴリズムに導入する。
シミュレーションロボット実験の強いベースラインと比較して,本手法がデータ効率を向上させるという実証的証拠を提供する。
論文 参考訳(メタデータ) (2020-07-17T12:51:42Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。