論文の概要: Identifying Critical States by the Action-Based Variance of Expected
Return
- arxiv url: http://arxiv.org/abs/2008.11332v2
- Date: Sun, 8 Nov 2020 10:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 20:53:41.760713
- Title: Identifying Critical States by the Action-Based Variance of Expected
Return
- Title(参考訳): 期待リターンの作用に基づく分散による臨界状態の同定
- Authors: Izumi Karino, Yoshiyuki Ohmura, Yasuo Kuniyoshi
- Abstract要約: 重要な状態を特定し、それらを特別に扱うことは、両問題に一般的に有益であることを示す。
これらの臨界状態は、行動選択が成功と失敗の可能性を大きく変える状態である。
動作のQ-関数のばらつきを利用して臨界状態を同定し、同定された状態に対して高い確率で利用することを提案する。
- 参考スコア(独自算出の注目度): 2.857551605623957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The balance of exploration and exploitation plays a crucial role in
accelerating reinforcement learning (RL). To deploy an RL agent in human
society, its explainability is also essential. However, basic RL approaches
have difficulties in deciding when to choose exploitation as well as in
extracting useful points for a brief explanation of its operation. One reason
for the difficulties is that these approaches treat all states the same way.
Here, we show that identifying critical states and treating them specially is
commonly beneficial to both problems. These critical states are the states at
which the action selection changes the potential of success and failure
substantially. We propose to identify the critical states using the variance in
the Q-function for the actions and to perform exploitation with high
probability on the identified states. These simple methods accelerate RL in a
grid world with cliffs and two baseline tasks of deep RL. Our results also
demonstrate that the identified critical states are intuitively interpretable
regarding the crucial nature of the action selection. Furthermore, our analysis
of the relationship between the timing of the identification of especially
critical states and the rapid progress of learning suggests there are a few
especially critical states that have important information for accelerating RL
rapidly.
- Abstract(参考訳): 探索と搾取のバランスは、強化学習(RL)の促進に重要な役割を果たしている。
人間社会にRLエージェントを配備するには、その説明可能性も不可欠である。
しかしながら、基本的なrlアプローチは、その操作の簡単な説明のために有用な点を抽出するだけでなく、いつ搾取を選択するかを決定するのに困難である。
難題の1つは、これらのアプローチが全ての状態を同じ方法で扱うためである。
ここでは、臨界状態を特定し、それらを特別に扱うことが、両問題に一般的に有用であることを示す。
これらの臨界状態は、行動選択が成功と失敗の可能性を大きく変える状態である。
動作のQ-関数のばらつきを利用して臨界状態を同定し、同定された状態に対して高い確率で利用することを提案する。
これらの簡単な手法は、崖のあるグリッド世界でRLを加速し、深いRLの2つのベースラインタスクを行う。
また, 評価された臨界状態は, 行動選択の重要な性質について直感的に解釈可能であることを示した。
さらに、特に臨界状態の同定のタイミングと学習の急速な進歩との関係を解析した結果、RLを急速に加速させる重要な情報を持つ重要な状態がいくつか存在することが示唆された。
関連論文リスト
- Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Causal Representation Learning Made Identifiable by Grouping of
Observational Variables [1.25097469793837]
因果表現学習(Causal Representation Learning)は、データ駆動型で隠れた機能の因果モデルを学ぶことを目的としている。
ここでは、新規で弱い制約に基づく識別可能性を示す。
また,モデルに整合した新たな自己教師付き推定フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T10:38:02Z) - Identifying Important Sensory Feedback for Learning Locomotion Skills [11.506301141472724]
DRLを用いて学習した運動能力に対するフィードバック状態の相対的重要性を定量的に評価する。
我々のアプローチは、バランス回復、トロッティング、バウンディング、ペーシング、ギャロッピングなど、ロコモーションスキルの最も重要なフィードバック状態を特定することができる。
論文 参考訳(メタデータ) (2023-06-29T16:58:08Z) - Efficient Reinforcement Learning with Impaired Observability: Learning
to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。
遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文 参考訳(メタデータ) (2023-06-02T02:46:39Z) - Reinforcement Learning with Knowledge Representation and Reasoning: A
Brief Survey [24.81327556378729]
近年,強化学習は飛躍的な発展を遂げている。
いまだに複雑な実生活問題に対処する上で大きな障害に直面している。
近年,知識表現と推論の利用に対する関心が高まっている。
論文 参考訳(メタデータ) (2023-04-24T13:35:11Z) - A Survey on Causal Reinforcement Learning [41.645270300009436]
本稿では、CRL(Causal Reinforcement Learning)の作業のレビュー、CRL手法のレビュー、RLへの因果性から潜在的な機能について検討する。
特に,既存のCRLアプローチを,因果関係に基づく情報が事前に与えられるか否かに応じて2つのカテゴリに分けた。
我々は、マルコフ決定プロセス(MDP)、部分観測マルコフ決定プロセス(POMDP)、マルチアーム帯域(MAB)、動的治療レジーム(DTR)など、様々なモデルの形式化の観点から、各カテゴリを解析する。
論文 参考訳(メタデータ) (2023-02-10T12:25:08Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - State Action Separable Reinforcement Learning [11.04892417160547]
我々は,新たな学習パラダイムである状態行動分離型強化学習(sasRL)を提案する。
sasRLでは、アクション空間が値関数学習プロセスから切り離され、効率が向上する。
いくつかのゲームシナリオの実験では、sasRLは最先端のMDPベースのRLアルゴリズムより75%高い性能を示している。
論文 参考訳(メタデータ) (2020-06-05T22:02:57Z) - InfoBot: Transfer and Exploration via the Information Bottleneck [105.28380750802019]
強化学習における中心的な課題は、報酬がわずかに分散されたタスクに対する効果的なポリシーを見つけることである。
我々は、事前の経験から意思決定状態について学ぶことを提案する。
この単純なメカニズムは、部分的に観察された状態であっても、決定状態を効果的に識別する。
論文 参考訳(メタデータ) (2019-01-30T15:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。