論文の概要: Preferential Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2106.06508v1
- Date: Fri, 11 Jun 2021 17:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 16:58:00.849555
- Title: Preferential Temporal Difference Learning
- Title(参考訳): 優先的時間差学習
- Authors: Nishanth Anand, Doina Precup
- Abstract要約: 本稿では,TD更新における状態の再重み付け手法を提案する。
本手法は線形関数近似に収束し,他のTDスタイルの手法と比較して望ましい経験的挙動を示す。
- 参考スコア(独自算出の注目度): 53.81943554808216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal-Difference (TD) learning is a general and very useful tool for
estimating the value function of a given policy, which in turn is required to
find good policies. Generally speaking, TD learning updates states whenever
they are visited. When the agent lands in a state, its value can be used to
compute the TD-error, which is then propagated to other states. However, it may
be interesting, when computing updates, to take into account other information
than whether a state is visited or not. For example, some states might be more
important than others (such as states which are frequently seen in a successful
trajectory). Or, some states might have unreliable value estimates (for
example, due to partial observability or lack of data), making their values
less desirable as targets. We propose an approach to re-weighting states used
in TD updates, both when they are the input and when they provide the target
for the update. We prove that our approach converges with linear function
approximation and illustrate its desirable empirical behaviour compared to
other TD-style methods.
- Abstract(参考訳): 時間差学習(TD: Temporal-Difference learning)は、与えられたポリシーの価値関数を推定するための汎用的で非常に有用なツールである。
一般的に言えば、TD学習は訪問されるたびに状態を更新する。
エージェントがステートに着地すると、その値を使ってtd-errorを計算し、それが他の州に伝播する。
しかし、コンピューティングの更新時に、ある状態が訪問されているかどうか以外の情報を考慮に入れることは興味深いかもしれない。
例えば、ある状態は他の状態よりも重要かもしれない(例えば、成功した軌道でしばしば見られる状態)。
あるいは、一部の状態は信頼できない値の推定(例えば、部分的な可観測性やデータの欠如)を持ち、その値がターゲットとしてあまり望まれない。
我々は、tdアップデートで使用される状態を再重み付けする手法を提案する。
本手法は線形関数近似に収束し,他のTDスタイルの手法と比較して望ましい経験的挙動を示す。
関連論文リスト
- Multi-State TD Target for Model-Free Reinforcement Learning [3.9801926395657325]
時間差(TD)学習は、状態または状態-作用ペアの値推定を更新する強化学習の基本的な技術である。
本稿では、その後の複数の状態の推定値を利用する拡張多状態TD(MSTD)ターゲットを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:17:49Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Topological Experience Replay [22.84244156916668]
深層Q-ラーニングメソッドは、経験リプレイバッファからサンプリングされた状態遷移を使用してQ-値を更新する。
エージェントの経験をグラフに整理し、状態のQ値間の依存性を明示的に追跡する。
本手法は,多種多様な目標達成タスクのベースラインよりも,データ効率が著しく高いことを実証的に示す。
論文 参考訳(メタデータ) (2022-03-29T18:28:20Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Approximate information state for approximate planning and reinforcement
learning in partially observed systems [0.7646713951724009]
歴史の関数(AIS)が情報状態の性質をほぼ満足すると、対応する近似動的プログラムが存在することを示す。
文献における状態,観察,行動空間のいくつかの近似がAISの例であることを示す。
AISの健全な特徴は、データから学習できることである。
論文 参考訳(メタデータ) (2020-10-17T18:30:30Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z) - Minimax Value Interval for Off-Policy Evaluation and Policy Optimization [28.085288472120705]
価値関数と限界値重みを用いたオフ政治評価のためのミニマックス法について検討した。
従来の重要度サンプリングにおける指数的分散を克服する約束があるにもかかわらず、いくつかの重要な問題が残っている。
信頼できるOPEのために、偏見を定量化する手段はあるのだろうか?
論文 参考訳(メタデータ) (2020-02-06T02:54:11Z) - Statistical Inference of the Value Function for Reinforcement Learning
in Infinite Horizon Settings [0.0]
我々は、決定ポイントの数が無限大に分散する無限の地平線設定において、ポリシーの値に対する信頼区間(CI)を構築する。
最適方針が一意でない場合でも,提案したCIが名目上のカバレッジを達成することを示す。
提案手法をモバイル健康研究のデータセットに適用し, 強化学習アルゴリズムが患者の健康状態を改善するのに役立つことを確かめた。
論文 参考訳(メタデータ) (2020-01-13T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。