論文の概要: Explaining the Decisions of Deep Policy Networks for Robotic
Manipulations
- arxiv url: http://arxiv.org/abs/2310.19432v1
- Date: Mon, 30 Oct 2023 10:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:47:06.273125
- Title: Explaining the Decisions of Deep Policy Networks for Robotic
Manipulations
- Title(参考訳): ロボット操作のためのディープポリシーネットワークの決定を説明する
- Authors: Seongun Kim, Jaesik Choi
- Abstract要約: 本稿では,ロボットのポリシーモデルの決定にどのような影響を及ぼすかを説明するために,入力属性法による深いポリシーモデルの明示的な分析を行う。
我々の知る限りでは、ロボット操作のためにオンラインのディープポリシーネットワークにおけるマルチモーダルセンサ入力の入力属性の動的変化を特定する最初のレポートである。
- 参考スコア(独自算出の注目度): 27.526882375069963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep policy networks enable robots to learn behaviors to solve various
real-world complex tasks in an end-to-end fashion. However, they lack
transparency to provide the reasons of actions. Thus, such a black-box model
often results in low reliability and disruptive actions during the deployment
of the robot in practice. To enhance its transparency, it is important to
explain robot behaviors by considering the extent to which each input feature
contributes to determining a given action. In this paper, we present an
explicit analysis of deep policy models through input attribution methods to
explain how and to what extent each input feature affects the decisions of the
robot policy models. To this end, we present two methods for applying input
attribution methods to robot policy networks: (1) we measure the importance
factor of each joint torque to reflect the influence of the motor torque on the
end-effector movement, and (2) we modify a relevance propagation method to
handle negative inputs and outputs in deep policy networks properly. To the
best of our knowledge, this is the first report to identify the dynamic changes
of input attributions of multi-modal sensor inputs in deep policy networks
online for robotic manipulation.
- Abstract(参考訳): ディープポリシーネットワークは、ロボットが行動を学び、エンド・ツー・エンドの方法で様々な現実世界の複雑なタスクを解決できるようにする。
しかし、行動の理由を提供するための透明性が欠如している。
したがって、そのようなブラックボックスモデルは、実際にロボットを配置する際の信頼性が低く、破壊的な動作をもたらすことが多い。
透明性を高めるためには,各入力特徴が与えられた行動決定にどの程度寄与するかを考慮し,ロボットの動作を説明することが重要である。
本稿では,入力帰属法による深い政策モデルの明示的な分析を行い,各入力特徴がロボットの政策モデルの判断にどの程度影響するかを説明する。
そこで本研究では,ロボットポリシネットワークに入力帰属法を適用するための2つの方法を提案する。(1) エンドエフェクタ運動に対するモータトルクの影響を反映するために,各関節トルクの重要度を測定し,(2) 負の入力と深いポリシネットワークの出力を適切に処理するための関連伝搬法を修正する。
我々の知る限りでは、ロボット操作のためにオンラインのディープポリシーネットワークにおけるマルチモーダルセンサ入力の入力属性の動的変化を特定する最初のレポートである。
関連論文リスト
- Learning to Look: Seeking Information for Decision Making via Policy Factorization [36.87799092971961]
本研究では,情報検索政策と情報受信政策からなる二重政治ソリューションであるDiaMを提案する。
我々は、情報探索行動を必要とする5つの操作タスクにおいて、二重ポリシーソリューションの能力を実証する。
論文 参考訳(メタデータ) (2024-10-24T17:58:11Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Learning active tactile perception through belief-space control [21.708391958446274]
本稿では,創造的世界モデルを開発することにより,触覚探索政策を自律的に学習する手法を提案する。
本手法は,目的が所望のオブジェクト特性を推定することである3つのシミュレーションタスクに対して評価する。
提案手法は, 所望のプロパティに関する情報を直感的に収集するポリシーを発見できることがわかった。
論文 参考訳(メタデータ) (2023-11-30T21:54:42Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Active Exploration for Robotic Manipulation [40.39182660794481]
本稿では,スパース・リワード型ロボット操作作業における効率的な学習を可能にするモデルに基づく能動探索手法を提案する。
我々は,提案アルゴリズムをシミュレーションおよび実ロボットで評価し,スクラッチから本手法を訓練した。
論文 参考訳(メタデータ) (2022-10-23T18:07:51Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Active Uncertainty Learning for Human-Robot Interaction: An Implicit
Dual Control Approach [5.05828899601167]
暗黙的な二重制御パラダイムに基づくループ内動作計画のための不確実性学習を実現するアルゴリズムを提案する。
提案手法は,動的プログラミングモデル予測制御問題のサンプリングに基づく近似に依拠する。
結果として得られたポリシーは、連続的およびカテゴリー的不確実性を持つ一般的な人間の予測モデルに対する二重制御効果を維持することが示されている。
論文 参考訳(メタデータ) (2022-02-15T20:40:06Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。