論文の概要: Blind Decision Making: Reinforcement Learning with Delayed Observations
- arxiv url: http://arxiv.org/abs/2011.07715v1
- Date: Mon, 16 Nov 2020 04:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 00:41:32.717870
- Title: Blind Decision Making: Reinforcement Learning with Delayed Observations
- Title(参考訳): ブラインド意思決定:遅延観察による強化学習
- Authors: Mridul Agarwal, Vaneet Aggarwal
- Abstract要約: 強化学習は、以前のアクションからの状態更新が瞬時に起こると仮定する。
状態更新が利用できない場合、現在の状態情報に依存することができないため、決定は一部盲目となる。
本稿では,国家の知識の遅れを生かし,利用可能な情報に基づいて意思決定を行うアプローチを提案する。
- 参考スコア(独自算出の注目度): 43.126718159042305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning typically assumes that the state update from the
previous actions happens instantaneously, and thus can be used for making
future decisions. However, this may not always be true. When the state update
is not available, the decision taken is partly in the blind since it cannot
rely on the current state information. This paper proposes an approach, where
the delay in the knowledge of the state can be used, and the decisions are made
based on the available information which may not include the current state
information. One approach could be to include the actions after the last-known
state as a part of the state information, however, that leads to an increased
state-space making the problem complex and slower in convergence. The proposed
algorithm gives an alternate approach where the state space is not enlarged, as
compared to the case when there is no delay in the state update. Evaluations on
the basic RL environments further illustrate the improved performance of the
proposed algorithm.
- Abstract(参考訳): 強化学習は、通常、以前のアクションからの状態更新が瞬時に起こると仮定し、将来の決定に使用できる。
しかし、これは必ずしも真実ではないかもしれない。
状態更新が利用できない場合、現在の状態情報に依存することができないため、決定は一部盲目となる。
本稿では,現状情報を含まない可能性のある情報に基づいて,状態の知識の遅延を利用した意思決定を行う手法を提案する。
一つのアプローチは、状態情報の一部として、最後の既知の状態以降のアクションを含めることであるが、それによって状態空間が増大し、問題が複雑になり収束が遅くなる。
提案されたアルゴリズムは、状態更新に遅延がない場合と比較して、状態空間が拡大されない別のアプローチを与える。
基本RL環境の評価により,提案アルゴリズムの性能が向上した。
関連論文リスト
- OpenPI-C: A Better Benchmark and Stronger Baseline for Open-Vocabulary
State Tracking [55.62705574507595]
OpenPIは、オープン語彙状態トラッキング用に注釈付けされた唯一のデータセットである。
手順レベル,ステップレベル,状態変化レベルの3つの問題を分類する。
評価指標として,クラスタベースの計量法を提案する。
論文 参考訳(メタデータ) (2023-06-01T16:48:20Z) - Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration [97.19464604735802]
探索のための有望な技術は、訪問状態分布のエントロピーを最大化することである。
エージェントが高価値の状態を訪問することを好むような、タスク報酬を伴う教師付きセットアップで苦労する傾向があります。
本稿では,値条件のエントロピーを最大化する新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T01:09:28Z) - Intermittently Observable Markov Decision Processes [26.118176084782842]
本稿では,制御者が信頼できない通信チャネルを通じてプロセスの状態情報を知覚するシナリオについて考察する。
地平線全体にわたる状態情報の伝達はベルヌーイ損失過程としてモデル化される。
木MDPに対する2つの有限状態近似を開発し,その近似を効率的に求める。
論文 参考訳(メタデータ) (2023-02-23T03:38:03Z) - Approximate Information States for Worst-Case Control and Learning in Uncertain Systems [2.7282382992043885]
システムに作用する外乱が未知の分布を持つ有界集合の値を取る非確率モデルを考える。
本稿では,情報状態の概念と近似情報状態を用いて,そのような問題における意思決定のための一般的な枠組みを提案する。
数値例を用いた制御・強化学習における本研究の応用について述べる。
論文 参考訳(メタデータ) (2023-01-12T15:36:36Z) - Efficient Embedding of Semantic Similarity in Control Policies via
Entangled Bisimulation [3.5092955099876266]
視覚的障害の存在下での視覚入力からの一般化可能なポリシの学習は、強化学習において難しい問題である。
そこで本研究では,状態間の距離関数を指定可能なビシミュレーション・メトリックであるエンタングルド・ビシミュレーションを提案する。
本稿では,Distracting Control Suite (DCS) における従来の手法に比べて,絡み合ったバイシミュレーションが有意に改善可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T18:06:06Z) - Preferential Temporal Difference Learning [53.81943554808216]
本稿では,TD更新における状態の再重み付け手法を提案する。
本手法は線形関数近似に収束し,他のTDスタイルの手法と比較して望ましい経験的挙動を示す。
論文 参考訳(メタデータ) (2021-06-11T17:05:15Z) - State estimation with limited sensors -- A deep learning based approach [0.0]
本稿では,シーケンシャルデータから学習する新しいディープラーニングに基づく状態推定フレームワークを提案する。
逐次データを利用することで,1~2つのセンサのみの状態回復が可能になることを示す。
論文 参考訳(メタデータ) (2021-01-27T16:14:59Z) - A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context [52.67844649650687]
本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T14:35:37Z) - InfoBot: Transfer and Exploration via the Information Bottleneck [105.28380750802019]
強化学習における中心的な課題は、報酬がわずかに分散されたタスクに対する効果的なポリシーを見つけることである。
我々は、事前の経験から意思決定状態について学ぶことを提案する。
この単純なメカニズムは、部分的に観察された状態であっても、決定状態を効果的に識別する。
論文 参考訳(メタデータ) (2019-01-30T15:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。