論文の概要: Explanation-Aware Experience Replay in Rule-Dense Environments
- arxiv url: http://arxiv.org/abs/2109.14711v1
- Date: Wed, 29 Sep 2021 20:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 15:00:17.793816
- Title: Explanation-Aware Experience Replay in Rule-Dense Environments
- Title(参考訳): ルールディエンス環境における説明・認識体験の再現
- Authors: Francesco Sovrano, Alex Raymond and Amanda Prorok
- Abstract要約: 本稿では,説明文ごとにラベル付けされたクラスタに分割することで,経験を整理する手法を提案する。
モジュール型ルールセットと9つの学習タスクと互換性のある離散的かつ連続的なナビゲーション環境を提供する。
説明可能なルールセットを持つ環境では、状態遷移を説明付きクラスタに割り当てることで、ルールベースの説明をケースベースの説明に変換する。
- 参考スコア(独自算出の注目度): 5.161531917413708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human environments are often regulated by explicit and complex rulesets.
Integrating Reinforcement Learning (RL) agents into such environments motivates
the development of learning mechanisms that perform well in rule-dense and
exception-ridden environments such as autonomous driving on regulated roads. In
this paper, we propose a method for organising experience by means of
partitioning the experience buffer into clusters labelled on a per-explanation
basis. We present discrete and continuous navigation environments compatible
with modular rulesets and 9 learning tasks. For environments with explainable
rulesets, we convert rule-based explanations into case-based explanations by
allocating state-transitions into clusters labelled with explanations. This
allows us to sample experiences in a curricular and task-oriented manner,
focusing on the rarity, importance, and meaning of events. We label this
concept Explanation-Awareness (XA). We perform XA experience replay (XAER) with
intra and inter-cluster prioritisation, and introduce XA-compatible versions of
DQN, TD3, and SAC. Performance is consistently superior with XA versions of
those algorithms, compared to traditional Prioritised Experience Replay
baselines, indicating that explanation engineering can be used in lieu of
reward engineering for environments with explainable features.
- Abstract(参考訳): 人間の環境は、しばしば明示的で複雑な規則によって規制される。
強化学習(RL)エージェントをそのような環境に組み込むことは、規制された道路での自律運転など、ルールセンスや例外駆動環境でうまく機能する学習メカニズムの開発を動機付ける。
本稿では,experience bufferをexplicationベースでラベル付けされたクラスタに分割することにより,エクスペリエンスを組織化する手法を提案する。
モジュール型ルールセットと9つの学習タスクと互換性のある離散的かつ連続的なナビゲーション環境を提供する。
説明可能なルールセットを持つ環境では、状態遷移を説明付きクラスタに割り当てることで、ルールベースの説明をケースベースの説明に変換する。
これにより、イベントの希少性、重要性、意味に焦点をあてて、カリキュラム的かつタスク指向の方法で経験をサンプリングすることができます。
この概念を説明認識 (xa) と呼ぶ。
クラスタ内およびクラスタ間優先度を用いたXAエクスペリエンス再生(XAER)を行い,DQN,TD3,SACのXA互換バージョンを導入する。
従来の優先経験リプレイベースラインと比較して、これらのアルゴリズムのXAバージョンよりもパフォーマンスが一貫して優れており、説明可能な機能を持つ環境の報酬工学の代わりに説明工学が使用できることを示している。
関連論文リスト
- Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning [4.902544998453533]
環境の重力レベルなどの文脈的手がかりの理解と活用は、堅牢な一般化に不可欠である。
提案アルゴリズムは, 様々なシミュレートされた領域における一般化を改良し, ゼロショット設定における事前の文脈学習技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-15T07:31:48Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Guide Your Agent with Adaptive Multimodal Rewards [107.08768813632032]
本研究は、エージェントの一般化能力を高めるための効率的なフレームワークであるアダプティブリターン条件付きポリシー(ARP)を提示する。
我々のキーとなる考え方は、事前訓練されたマルチモーダル埋め込み空間における視覚観察と自然言語命令の類似性を計算することである。
マルチモーダル報酬は各タイミングで適応的な信号を提供するので、ARPはゴールの一般化を効果的に軽減する。
論文 参考訳(メタデータ) (2023-09-19T17:39:20Z) - Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
論文 参考訳(メタデータ) (2023-09-18T21:00:01Z) - Integrating LLMs and Decision Transformers for Language Grounded
Generative Quality-Diversity [0.0]
品質多様性(Quality-Diversity)は最適化の一分野であり、強化学習と制御ドメインの問題によく適用される。
本稿では,レパートリーをトラジェクトリの自然言語記述で拡張する大規模言語モデルを提案する。
また、このような生成エージェントの性能を評価するためのLCMベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-25T10:00:06Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - CrystalBox: Future-Based Explanations for Input-Driven Deep RL Systems [8.865836639561078]
本稿では,Deep Reinforcement Learningコントローラのためのモデルに依存しない,ポストホックな説明可能性フレームワークであるCrystalBoxを紹介する。
入力駆動環境における報酬関数の自然な分解可能性と分解された還元の説明力を組み合わせる。
論文 参考訳(メタデータ) (2023-02-27T02:42:27Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文 参考訳(メタデータ) (2022-08-03T22:52:26Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。