論文の概要: Identifying Critical States by the Action-Based Variance of Expected
Return
- arxiv url: http://arxiv.org/abs/2008.11332v2
- Date: Sun, 8 Nov 2020 10:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 20:53:41.760713
- Title: Identifying Critical States by the Action-Based Variance of Expected
Return
- Title(参考訳): 期待リターンの作用に基づく分散による臨界状態の同定
- Authors: Izumi Karino, Yoshiyuki Ohmura, Yasuo Kuniyoshi
- Abstract要約: 重要な状態を特定し、それらを特別に扱うことは、両問題に一般的に有益であることを示す。
これらの臨界状態は、行動選択が成功と失敗の可能性を大きく変える状態である。
動作のQ-関数のばらつきを利用して臨界状態を同定し、同定された状態に対して高い確率で利用することを提案する。
- 参考スコア(独自算出の注目度): 2.857551605623957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The balance of exploration and exploitation plays a crucial role in
accelerating reinforcement learning (RL). To deploy an RL agent in human
society, its explainability is also essential. However, basic RL approaches
have difficulties in deciding when to choose exploitation as well as in
extracting useful points for a brief explanation of its operation. One reason
for the difficulties is that these approaches treat all states the same way.
Here, we show that identifying critical states and treating them specially is
commonly beneficial to both problems. These critical states are the states at
which the action selection changes the potential of success and failure
substantially. We propose to identify the critical states using the variance in
the Q-function for the actions and to perform exploitation with high
probability on the identified states. These simple methods accelerate RL in a
grid world with cliffs and two baseline tasks of deep RL. Our results also
demonstrate that the identified critical states are intuitively interpretable
regarding the crucial nature of the action selection. Furthermore, our analysis
of the relationship between the timing of the identification of especially
critical states and the rapid progress of learning suggests there are a few
especially critical states that have important information for accelerating RL
rapidly.
- Abstract(参考訳): 探索と搾取のバランスは、強化学習(RL)の促進に重要な役割を果たしている。
人間社会にRLエージェントを配備するには、その説明可能性も不可欠である。
しかしながら、基本的なrlアプローチは、その操作の簡単な説明のために有用な点を抽出するだけでなく、いつ搾取を選択するかを決定するのに困難である。
難題の1つは、これらのアプローチが全ての状態を同じ方法で扱うためである。
ここでは、臨界状態を特定し、それらを特別に扱うことが、両問題に一般的に有用であることを示す。
これらの臨界状態は、行動選択が成功と失敗の可能性を大きく変える状態である。
動作のQ-関数のばらつきを利用して臨界状態を同定し、同定された状態に対して高い確率で利用することを提案する。
これらの簡単な手法は、崖のあるグリッド世界でRLを加速し、深いRLの2つのベースラインタスクを行う。
また, 評価された臨界状態は, 行動選択の重要な性質について直感的に解釈可能であることを示した。
さらに、特に臨界状態の同定のタイミングと学習の急速な進歩との関係を解析した結果、RLを急速に加速させる重要な情報を持つ重要な状態がいくつか存在することが示唆された。
関連論文リスト
- Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - On the Identification of Temporally Causal Representation with Instantaneous Dependence [50.14432597910128]
時間的因果表現学習は時系列観測から潜在因果過程を特定することを目的としている。
ほとんどの方法は、潜在因果過程が即時関係を持たないという仮定を必要とする。
我々は,インスタントtextbfOus textbfLatent dynamics のための textbfIDentification フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T08:08:05Z) - A Survey of Temporal Credit Assignment in Deep Reinforcement Learning [47.17998784925718]
クレディ・アサインメント問題(Capital Assignment Problem, CAP)とは、強化学習(Reinforcement Learning, RL)エージェントが長期的な結果と行動を関連付けるための長年にわたる課題を指す。
我々は、最先端のアルゴリズムの公平な比較を可能にする信用の統一形式性を提案する。
我々は、遅延効果、転置、行動への影響の欠如に起因する課題について論じ、既存の手法がそれらにどう対処しようとしているのかを分析した。
論文 参考訳(メタデータ) (2023-12-02T08:49:51Z) - Causal Representation Learning Made Identifiable by Grouping of Observational Variables [8.157856010838382]
因果表現学習(Causal Representation Learning)は、データ駆動型で隠れた機能の因果モデルを学ぶことを目的としている。
ここでは、新規で弱い制約に基づく識別可能性を示す。
また,モデルに整合した新たな自己教師付き推定フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T10:38:02Z) - Identifying Important Sensory Feedback for Learning Locomotion Skills [11.506301141472724]
DRLを用いて学習した運動能力に対するフィードバック状態の相対的重要性を定量的に評価する。
我々のアプローチは、バランス回復、トロッティング、バウンディング、ペーシング、ギャロッピングなど、ロコモーションスキルの最も重要なフィードバック状態を特定することができる。
論文 参考訳(メタデータ) (2023-06-29T16:58:08Z) - Reinforcement Learning with Knowledge Representation and Reasoning: A
Brief Survey [24.81327556378729]
近年,強化学習は飛躍的な発展を遂げている。
いまだに複雑な実生活問題に対処する上で大きな障害に直面している。
近年,知識表現と推論の利用に対する関心が高まっている。
論文 参考訳(メタデータ) (2023-04-24T13:35:11Z) - A Survey on Causal Reinforcement Learning [41.645270300009436]
本稿では、CRL(Causal Reinforcement Learning)の作業のレビュー、CRL手法のレビュー、RLへの因果性から潜在的な機能について検討する。
特に,既存のCRLアプローチを,因果関係に基づく情報が事前に与えられるか否かに応じて2つのカテゴリに分けた。
我々は、マルコフ決定プロセス(MDP)、部分観測マルコフ決定プロセス(POMDP)、マルチアーム帯域(MAB)、動的治療レジーム(DTR)など、様々なモデルの形式化の観点から、各カテゴリを解析する。
論文 参考訳(メタデータ) (2023-02-10T12:25:08Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - State Action Separable Reinforcement Learning [11.04892417160547]
我々は,新たな学習パラダイムである状態行動分離型強化学習(sasRL)を提案する。
sasRLでは、アクション空間が値関数学習プロセスから切り離され、効率が向上する。
いくつかのゲームシナリオの実験では、sasRLは最先端のMDPベースのRLアルゴリズムより75%高い性能を示している。
論文 参考訳(メタデータ) (2020-06-05T22:02:57Z) - InfoBot: Transfer and Exploration via the Information Bottleneck [105.28380750802019]
強化学習における中心的な課題は、報酬がわずかに分散されたタスクに対する効果的なポリシーを見つけることである。
我々は、事前の経験から意思決定状態について学ぶことを提案する。
この単純なメカニズムは、部分的に観察された状態であっても、決定状態を効果的に識別する。
論文 参考訳(メタデータ) (2019-01-30T15:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。