論文の概要: Lazy-MDPs: Towards Interpretable Reinforcement Learning by Learning When
to Act
- arxiv url: http://arxiv.org/abs/2203.08542v1
- Date: Wed, 16 Mar 2022 11:06:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 13:43:16.195189
- Title: Lazy-MDPs: Towards Interpretable Reinforcement Learning by Learning When
to Act
- Title(参考訳): Lazy-MDPs: 実行時学習による解釈可能な強化学習を目指して
- Authors: Alexis Jacq, Johan Ferret, Olivier Pietquin, Matthieu Geist
- Abstract要約: 我々は、標準マルコフ決定プロセスを強化し、新しい動作モードを利用可能にすることを提案する。
本稿では,遅延MDPの理論的性質,値関数の表現,最適解のキャラクタリゼーションについて検討する。
デフォルトと新しい遅延ポリシーの間のパフォーマンスの違いを説明するので、これらの状態と対応するアクションが重要であると判断します。
- 参考スコア(独自算出の注目度): 42.909535340099296
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditionally, Reinforcement Learning (RL) aims at deciding how to act
optimally for an artificial agent. We argue that deciding when to act is
equally important. As humans, we drift from default, instinctive or memorized
behaviors to focused, thought-out behaviors when required by the situation. To
enhance RL agents with this aptitude, we propose to augment the standard Markov
Decision Process and make a new mode of action available: being lazy, which
defers decision-making to a default policy. In addition, we penalize non-lazy
actions in order to encourage minimal effort and have agents focus on critical
decisions only. We name the resulting formalism lazy-MDPs. We study the
theoretical properties of lazy-MDPs, expressing value functions and
characterizing optimal solutions. Then we empirically demonstrate that policies
learned in lazy-MDPs generally come with a form of interpretability: by
construction, they show us the states where the agent takes control over the
default policy. We deem those states and corresponding actions important since
they explain the difference in performance between the default and the new,
lazy policy. With suboptimal policies as default (pretrained or random), we
observe that agents are able to get competitive performance in Atari games
while only taking control in a limited subset of states.
- Abstract(参考訳): 伝統的に強化学習(rl)は、人工エージェントに対して最適な行動方法を決定することを目的としている。
我々はいつ行動するかを決めることが重要であると主張する。
人間として、我々は、デフォルト、本能的、暗記的行動から、状況によって要求される集中的、思考的行動へと漂流する。
本稿では,この能力でRLエージェントを強化し,標準マルコフ決定プロセスを強化し,遅延性(lazy)という新たな動作モードを実現することを提案する。
さらに、最小限の努力を奨励し、エージェントに重要な決定のみに焦点を当てるために、非怠慢な行動を罰する。
結果の形式的遅延MDPを命名する。
我々はlazy-mdpの理論特性を調べ,値関数を表現し,最適解を特徴付ける。
次に、遅延MDPで学んだポリシーが一般的に解釈可能性の形で現れることを実証的に示す:建設によって、エージェントがデフォルトのポリシーを制御している状態を示す。
デフォルトと新しい遅延ポリシーのパフォーマンスの違いを説明するため、これらの状態と対応するアクションを重要視します。
サブ最適ポリシーをデフォルトとして(事前訓練またはランダムに)、エージェントは限られた状態のサブセットでのみ制御しながら、アタリゲームで競争性能を得ることができる。
関連論文リスト
- Tackling Decision Processes with Non-Cumulative Objectives using Reinforcement Learning [0.0]
我々は,非累積マルコフ決定過程を標準MDPに一般化したマッピングを導入する。
これにより、MDPがより大規模なNCMDPに直接適用されるための最適なポリシーを見つけるために開発されたすべての技術が利用可能となる。
我々は、古典的な制御、金融におけるポートフォリオ最適化、離散最適化問題など、様々なタスクのアプリケーションを示す。
論文 参考訳(メタデータ) (2024-05-22T13:01:37Z) - PARTNR: Pick and place Ambiguity Resolving by Trustworthy iNteractive
leaRning [5.046831208137847]
本稿では,選択と配置のポーズにおける複数のモーダルを解析することにより,訓練されたポリシーのあいまいさを検出できるPartinNRアルゴリズムを提案する。
PartNRは、追加のユーザデモが必要なかどうかを判断する適応型、感度ベースのゲーティング機能を採用している。
テーブルトップのピック・アンド・プレイス・タスクにおけるPartinNRの性能を実演する。
論文 参考訳(メタデータ) (2022-11-15T17:07:40Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Mildly Conservative Q-Learning for Offline Reinforcement Learning [63.2183622958666]
オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。
既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。
我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
論文 参考訳(メタデータ) (2022-06-09T19:44:35Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Dealing with the Unknown: Pessimistic Offline Reinforcement Learning [25.30634466168587]
本稿では, PessORLアルゴリズムを用いて, エージェントを慣れ親しんだ領域に積極的に誘導する手法を提案する。
我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に注目し、トレーニングデータセットに欠けている状態において、意図的に高い価値をペナルティ化する。
論文 参考訳(メタデータ) (2021-11-09T22:38:58Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Off-Belief Learning [21.98027225621791]
完全に根ざした最適な政策を学ぶために、OBL(off-belief Learning)を提示します。
OBLは独自のポリシーに収束し、ゼロショット調整により適している。
OBLは単純な玩具セットとヒト/AI/ゼロショット調整のベンチマークの両方において強い性能を示す。
論文 参考訳(メタデータ) (2021-03-06T01:09:55Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。