論文の概要: Predecessor Features
- arxiv url: http://arxiv.org/abs/2206.00303v1
- Date: Wed, 1 Jun 2022 08:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 00:06:26.541415
- Title: Predecessor Features
- Title(参考訳): 先行する特徴
- Authors: Duncan Bailey and Marcelo Mattar
- Abstract要約: Predecessor Features"は、このよりリッチなクレジット代入を実現するアルゴリズムである。
過去の占有率の予想総和を近似した表現を維持することにより, アルゴリズムは時間差(TD)誤差を正確に伝播させることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Any reinforcement learning system must be able to identify which past events
contributed to observed outcomes, a problem known as credit assignment. A
common solution to this problem is to use an eligibility trace to assign credit
to recency-weighted set of experienced events. However, in many realistic
tasks, the set of recently experienced events are only one of the many possible
action events that could have preceded the current outcome. This suggests that
reinforcement learning can be made more efficient by allowing credit assignment
to any viable preceding state, rather than only those most recently
experienced. Accordingly, we propose "Predecessor Features", an algorithm that
achieves this richer form of credit assignment. By maintaining a representation
that approximates the expected sum of past occupancies, our algorithm allows
temporal difference (TD) errors to be propagated accurately to a larger number
of predecessor states than conventional methods, greatly improving learning
speed. Our algorithm can also be naturally extended from tabular state
representation to feature representations allowing for increased performance on
a wide range of environments. We demonstrate several use cases for Predecessor
Features and contrast its performance with other similar approaches.
- Abstract(参考訳): いかなる強化学習システムでも、過去の出来事が観察結果に寄与したかを特定できなければならない。
この問題に対する一般的な解決策は、経験豊富なイベントの定期的な重み付けセットにクレジットを割り当てるために適格性トレースを使用することである。
しかし、多くの現実的なタスクにおいて、最近経験したイベントの集合は、現在の結果に先立って起こりうる多くのアクションイベントの1つである。
このことは、最近経験した者だけに限らず、より有効な先行状態にクレジットを割り当てることにより、強化学習をより効率的にすることができることを示唆している。
そこで我々は,このリッチな信用代入を実現するアルゴリズムである"Predecessor Features"を提案する。
過去の占有率の期待値に近い表現を維持することで、従来の方法よりも多くの前者に対して時間差(td)誤差を正確に伝播させ、学習速度を大幅に向上させる。
また,本アルゴリズムは,表的な状態表現から特徴表現へと自然に拡張でき,幅広い環境における性能の向上が期待できる。
我々は、Predecessor Featuresのいくつかのユースケースを示し、そのパフォーマンスを他の類似したアプローチと対比する。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Generalizing Multi-Step Inverse Models for Representation Learning to Finite-Memory POMDPs [23.584313644411967]
本研究では,関連する情報のみを符号化し,無関係な情報を破棄する情報的,あるいはエージェント中心の状態表現の発見問題について検討する。
我々の結果は、決定論的力学設定の理論と、代替直観的アルゴリズムの反例を含む。
アルゴリズムを正しく使用した場合に成功させ、正しく使用した場合に劇的な失敗を引き起こす。
論文 参考訳(メタデータ) (2024-04-22T19:46:16Z) - Predictive Coding beyond Correlations [59.47245250412873]
このようなアルゴリズムのうちの1つは、予測符号化と呼ばれ、因果推論タスクを実行することができるかを示す。
まず、予測符号化の推論過程における簡単な変化が、因果グラフを再利用したり再定義したりすることなく、介入を計算できることを示す。
論文 参考訳(メタデータ) (2023-06-27T13:57:16Z) - Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards [0.4194295877935867]
現実のアプリケーションでは、決定に関するフィードバックが遅れて、異なる遅延で観察される部分的な報酬によって到着する場合がある。
本稿では,時間分割報酬を一般化したマルチアームバンディット(multi-armed bandits)と呼ばれる新しい問題定式化を提案する。
検討した問題に対する一様に効率的なアルゴリズムの性能の低い境界を導出する。
論文 参考訳(メタデータ) (2023-03-01T16:22:22Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Non-Clairvoyant Scheduling with Predictions Revisited [77.86290991564829]
非論理的スケジューリングでは、優先度不明な処理条件でジョブをスケジューリングするためのオンライン戦略を見つけることが課題である。
我々はこのよく研究された問題を、アルゴリズム設計に(信頼できない)予測を統合する、最近人気の高い学習強化された設定で再検討する。
これらの予測には所望の特性があり, 高い性能保証を有するアルゴリズムと同様に, 自然な誤差測定が可能であることを示す。
論文 参考訳(メタデータ) (2022-02-21T13:18:11Z) - Improving Experience Replay with Successor Representation [0.0]
優先順位付けされた経験の再生は、学習を高速化する強化学習技術である。
神経科学における最近の研究は、生物において、リプレイは利得と必要性の両方によって優先順位付けされていることを示唆している。
論文 参考訳(メタデータ) (2021-11-29T05:25:54Z) - Metalearning Linear Bandits by Prior Update [7.519872646378836]
完全なベイズ的アプローチは、問題のパラメータは既知の事前から生成されると仮定するが、実際にはそのような情報は欠落することが多い。
この問題は、ある部分的な情報を持つ意思決定設定において悪化し、不特定事前の使用は、探索の質が悪く、性能が劣る可能性がある。
この研究において、線形帯域幅とガウス事前の文脈において、事前推定が真の事前に十分近い限り、不特定事前を用いたアルゴリズムの性能は真の先行を用いたアルゴリズムのそれに近いことを証明した。
論文 参考訳(メタデータ) (2021-07-12T11:17:01Z) - Expected Eligibility Traces [31.942254205913798]
期待されたトレースは、現在の状態に先行する可能性のある状態やアクションを更新することを可能にする。
ブートストラップと同様のメカニズムにより,即時と期待されたトレースを円滑に補間する方法を提供する。
論文 参考訳(メタデータ) (2020-07-03T17:46:16Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。