論文の概要: Interpretable Local Tree Surrogate Policies
- arxiv url: http://arxiv.org/abs/2109.08180v1
- Date: Thu, 16 Sep 2021 18:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 08:30:33.490638
- Title: Interpretable Local Tree Surrogate Policies
- Title(参考訳): 解釈可能なローカルツリーサロゲートポリシー
- Authors: John Mern, Sidhart Krishnan, Anil Yildiz, Kyle Hatch, Mykel J.
Kochenderfer
- Abstract要約: 本稿では,ニューラルネットワークなどのポリシのサロゲートとして,予測可能なポリシツリーを構築する手法を提案する。
ポリシーツリーは人間の解釈が容易であり、将来の行動の定量的予測を提供する。
- 参考スコア(独自算出の注目度): 27.781221210925498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-dimensional policies, such as those represented by neural networks,
cannot be reasonably interpreted by humans. This lack of interpretability
reduces the trust users have in policy behavior, limiting their use to
low-impact tasks such as video games. Unfortunately, many methods rely on
neural network representations for effective learning. In this work, we propose
a method to build predictable policy trees as surrogates for policies such as
neural networks. The policy trees are easily human interpretable and provide
quantitative predictions of future behavior. We demonstrate the performance of
this approach on several simulated tasks.
- Abstract(参考訳): ニューラルネットワークで表されるような高次元のポリシーは、人間によって合理的に解釈できない。
この解釈可能性の欠如は、ユーザーが政策行動において持つ信頼を減らし、ビデオゲームのような低インパクトなタスクに制限する。
残念ながら、多くの手法は効果的な学習のためにニューラルネットワーク表現に依存している。
本研究では,ニューラルネットワークなどのポリシの代理として,予測可能なポリシツリーを構築する手法を提案する。
ポリシーツリーは容易に解釈可能であり、将来の行動の定量的予測を提供する。
本手法の性能を複数のシミュレーションタスクで実証する。
関連論文リスト
- Inference-Time Policy Steering through Human Interactions [54.02655062969934]
推論中、人間はしばしばポリシー実行ループから取り除かれる。
本稿では,人間のインタラクションを活用して生成するサンプリングプロセスにバイアスを与える推論時ポリシーステアリングフレームワークを提案する。
提案手法は,アライメントと分布シフトの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-25T18:03:50Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Adversarial Attacks on the Interpretation of Neuron Activation
Maximization [70.5472799454224]
アクティベーション最大化アプローチは、訓練されたディープラーニングモデルの解釈と解析に使用される。
本研究では,解釈を欺くためにモデルを操作する敵の概念を考察する。
論文 参考訳(メタデータ) (2023-06-12T19:54:33Z) - Interpretable and Explainable Logical Policies via Neurally Guided
Symbolic Abstraction [23.552659248243806]
ニューラルgUided Differentiable loGic policiEs (NUDGE)を紹介する。
NUDGEは、トレーニングされたニューラルネットワークベースのエージェントを使用して、候補重み付けされたロジックルールの探索をガイドし、差別化可能なロジックを使用してロジックエージェントをトレーニングする。
実験により, NUDGEエージェントは, 純粋に神経性に優れ, 初期状態や問題の大きさの異なる環境に対して良好な柔軟性を示しながら, 解釈可能かつ説明可能なポリシーを誘導できることを示した。
論文 参考訳(メタデータ) (2023-06-02T10:59:44Z) - PARTNR: Pick and place Ambiguity Resolving by Trustworthy iNteractive
leaRning [5.046831208137847]
本稿では,選択と配置のポーズにおける複数のモーダルを解析することにより,訓練されたポリシーのあいまいさを検出できるPartinNRアルゴリズムを提案する。
PartNRは、追加のユーザデモが必要なかどうかを判断する適応型、感度ベースのゲーティング機能を採用している。
テーブルトップのピック・アンド・プレイス・タスクにおけるPartinNRの性能を実演する。
論文 参考訳(メタデータ) (2022-11-15T17:07:40Z) - Interpretable part-whole hierarchies and conceptual-semantic
relationships in neural networks [4.153804257347222]
本稿では、視覚的手がかりから部分全体階層を表現できるフレームワークであるAgglomeratorについて述べる。
本研究では,SmallNORB,MNIST,FashionMNIST,CIFAR-10,CIFAR-100などの共通データセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-03-07T10:56:13Z) - Sparse Oblique Decision Trees: A Tool to Understand and Manipulate
Neural Net Features [3.222802562733787]
ニューラルネットワークによって計算される内部的特徴のどれが特定のクラスに責任を持つかを理解することに注力する。
我々は、ニューラルネットワークの機能を容易に操作できることを示し、ネットが所定のクラスを予測するかどうかを予測できるようにし、機能レベルで敵対的な攻撃を行うことができることを示した。
論文 参考訳(メタデータ) (2021-04-07T05:31:08Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。