論文の概要: A Novel Approach to Curiosity and Explainable Reinforcement Learning via
Interpretable Sub-Goals
- arxiv url: http://arxiv.org/abs/2104.06630v1
- Date: Wed, 14 Apr 2021 05:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 22:21:34.602794
- Title: A Novel Approach to Curiosity and Explainable Reinforcement Learning via
Interpretable Sub-Goals
- Title(参考訳): 解釈可能なサブゴールによる好奇心と説明可能な強化学習への新しいアプローチ
- Authors: Connor van Rossum, Candice Feinberg, Adam Abu Shumays, Kyle Baxter,
Benedek Bartha
- Abstract要約: 強化学習における2つの重要な課題は、(a)環境内でのエージェント学習の改善、および(b)エージェントアクションの説明可能性である。
これらの課題に対処するために、興味深いサブゴールに焦点を当てたエージェントについて説明する。
環境遷移にロバストな環境遷移のモデルとして,gan(generative adrial network)を用いた新たな好奇心評価手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two key challenges within Reinforcement Learning involve improving (a) agent
learning within environments with sparse extrinsic rewards and (b) the
explainability of agent actions. We describe a curious subgoal focused agent to
address both these challenges. We use a novel method for curiosity produced
from a Generative Adversarial Network (GAN) based model of environment
transitions that is robust to stochastic environment transitions. Additionally,
we use a subgoal generating network to guide navigation. The explainability of
the agent's behavior is increased by decomposing complex tasks into a sequence
of interpretable subgoals that do not require any manual design. We show that
this method also enables the agent to solve challenging procedurally-generated
tasks that contain stochastic transitions above other state-of-the-art methods.
- Abstract(参考訳): 強化学習における2つの重要な課題は、(a)疎外報酬を伴う環境におけるエージェント学習の改善と(b)エージェント行動の説明可能性である。
これらの課題に対処するために、興味深いサブゴールに焦点を当てたエージェントについて説明する。
確率的環境遷移にロバストな環境遷移モデルとして,gan(generative adversarial network)を用いた新たな好奇心評価手法を提案する。
さらに,ナビゲーションのガイドにはサブゴール生成ネットワークを用いる。
エージェントの動作の説明性は、複雑なタスクを手作業で設計する必要のない一連の解釈可能なサブゴールに分解することで向上する。
本手法は,他の最先端手法よりも確率的遷移を含む手続き的生成課題を,エージェントが解決できることを示す。
関連論文リスト
- Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - A Closer Look at Reward Decomposition for High-Level Robotic
Explanations [18.019811754800767]
本稿では、報酬分解と抽象的な行動空間を組み合わせたQ-Map学習フレームワークを提案する。
本稿では,2つのロボットシナリオの定量的,定性的な分析を通じて,本フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T16:01:42Z) - Investigating the role of model-based learning in exploration and
transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。
モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。
本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-02-08T11:49:58Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。