論文の概要: Explaining Conditions for Reinforcement Learning Behaviors from Real and
Imagined Data
- arxiv url: http://arxiv.org/abs/2011.09004v1
- Date: Tue, 17 Nov 2020 23:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 15:37:05.774480
- Title: Explaining Conditions for Reinforcement Learning Behaviors from Real and
Imagined Data
- Title(参考訳): 実データと想像データによる強化学習行動の条件説明
- Authors: Aastha Acharya, Rebecca Russell, Nisar R. Ahmed
- Abstract要約: 本稿では,課題実行戦略や成果に繋がる経験的条件を識別する,人間解釈可能な抽象行動モデルを生成する手法を提案する。
提案手法は、状態表現から経験的特徴を抽出し、トラジェクトリから戦略記述子を抽象化し、解釈可能な決定木を訓練する。
本稿では,環境との相互作用から生成された軌道データと,モデルに基づくRL設定において,学習された確率的世界モデルから得られた軌道データについて述べる。
- 参考スコア(独自算出の注目度): 3.3517146652431378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of reinforcement learning (RL) in the real world comes with
challenges in calibrating user trust and expectations. As a step toward
developing RL systems that are able to communicate their competencies, we
present a method of generating human-interpretable abstract behavior models
that identify the experiential conditions leading to different task execution
strategies and outcomes. Our approach consists of extracting experiential
features from state representations, abstracting strategy descriptors from
trajectories, and training an interpretable decision tree that identifies the
conditions most predictive of different RL behaviors. We demonstrate our method
on trajectory data generated from interactions with the environment and on
imagined trajectory data that comes from a trained probabilistic world model in
a model-based RL setting.
- Abstract(参考訳): 実世界における強化学習(RL)の展開には、ユーザの信頼と期待の調整に関する課題が伴う。
能力を伝達できるrlシステムを開発するためのステップとして、異なるタスク実行戦略と結果につながる経験的条件を識別する、人間解釈可能な抽象行動モデルを生成する方法を提案する。
提案手法は, 状態表現から経験的特徴を抽出し, トラジェクトリから戦略記述子を抽象化し, 解釈可能な決定木を訓練することにより, 異なるRLの挙動を最も予測できる条件を特定する。
本手法は,環境との相互作用から生成する軌道データと,モデルベースのrl設定において訓練された確率的世界モデルから得られる想定軌道データについて実証する。
関連論文リスト
- REACT: Revealing Evolutionary Action Consequence Trajectories for Interpretable Reinforcement Learning [7.889696505137217]
強化学習の解釈可能性を高めるために,Revealing Evolutionary Action Consequence Trajectories (REACT)を提案する。
トレーニング中に学習した最適な振る舞いに基づくRLモデルの一般的な実践とは対照的に、エッジケースの軌跡の範囲を考慮すると、それらの固有の振る舞いをより包括的に理解することができると仮定する。
本研究は,RLモデルの動作の微妙な側面を最適性能を超えて明らかにし,解釈可能性の向上に寄与することを示す。
論文 参考訳(メタデータ) (2024-04-04T10:56:30Z) - Zero-shot Imitation Policy via Search in Demonstration Dataset [0.16817021284806563]
行動クローンは、ポリシーを学ぶためにデモのデータセットを使用する。
本稿では,事前学習した基礎モデルの潜在空間を用いて,実演データセットをインデックス化することを提案する。
提案手法は,マインクラフト環境において,有意義なデモンストレーションを効果的に再現し,エージェントの人間的行動を示す。
論文 参考訳(メタデータ) (2024-01-29T18:38:29Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Concept-modulated model-based offline reinforcement learning for rapid
generalization [5.512991103610139]
本研究では,環境概念や非教師付き手法で学習したダイナミックスに制約されたシナリオを自己生成する手法を提案する。
特に、エージェントの環境の内部モデルは、エージェントの動作に敏感な入力空間の低次元概念表現に条件付けされる。
モデルベースおよびモデルフリーアプローチと比較して,特定の障害事例の異なるインスタンスに対するワンショット一般化の劇的な改善と,同様のバリエーションに対するゼロショット一般化を示す。
論文 参考訳(メタデータ) (2022-09-07T15:06:38Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。
強化学習におけるリスクに関する局所的な説明方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T23:43:11Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。