論文の概要: Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.03878v1
- Date: Mon, 6 May 2024 21:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 15:57:58.630931
- Title: Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning
- Title(参考訳): シーケンス圧縮は強化学習におけるクレジット割り当てを高速化する
- Authors: Aditya A. Ramesh, Kenny Young, Louis Kirsch, Jürgen Schmidhuber,
- Abstract要約: 時間差(TD)学習は、分散を克服するためにブートストラップを使用するが、多くのイテレーションでしか修正できないバイアスを導入する。
ラムダ$-returnターゲットの計算モデルからトランジションの予測確率を利用するチャンク付きTDを提案する。
- 参考スコア(独自算出の注目度): 33.28797183140384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal credit assignment in reinforcement learning is challenging due to delayed and stochastic outcomes. Monte Carlo targets can bridge long delays between action and consequence but lead to high-variance targets due to stochasticity. Temporal difference (TD) learning uses bootstrapping to overcome variance but introduces a bias that can only be corrected through many iterations. TD($\lambda$) provides a mechanism to navigate this bias-variance tradeoff smoothly. Appropriately selecting $\lambda$ can significantly improve performance. Here, we propose Chunked-TD, which uses predicted probabilities of transitions from a model for computing $\lambda$-return targets. Unlike other model-based solutions to credit assignment, Chunked-TD is less vulnerable to model inaccuracies. Our approach is motivated by the principle of history compression and 'chunks' trajectories for conventional TD learning. Chunking with learned world models compresses near-deterministic regions of the environment-policy interaction to speed up credit assignment while still bootstrapping when necessary. We propose algorithms that can be implemented online and show that they solve some problems much faster than conventional TD($\lambda$).
- Abstract(参考訳): 強化学習における時間的クレジット割り当ては、遅れた確率的な結果のために困難である。
モンテカルロの標的は行動と結果の間の長い遅延を橋渡しすることができるが、確率性によって高い分散目標につながる。
時間差(TD)学習は、分散を克服するためにブートストラップを使用するが、多くのイテレーションでしか修正できないバイアスを導入する。
TD($\lambda$)は、このバイアス分散トレードオフをスムーズにナビゲートするメカニズムを提供する。
適切な$\lambda$を選択すると、パフォーマンスが大幅に向上する。
本稿では,Chunked-TDを提案する。これは,$\lambda$-returnターゲットを計算するためのモデルからトランジションの予測確率を利用する。
他のモデルベースの信用代入ソリューションとは異なり、Chunked-TDはモデルの不正確さに弱い。
本手法は,従来のTD学習における履歴圧縮と「チャンク」軌道の原理に動機付けられている。
学習された世界モデルによるチャンキングは、環境と政治の相互作用のほぼ決定論的領域を圧縮し、必要に応じてブートストラップしながらクレジット割り当てを高速化する。
我々は,オンラインで実装可能なアルゴリズムを提案し,従来のTD($\lambda$)よりもはるかに高速に解決できることを示す。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Direct Gradient Temporal Difference Learning [23.297137490591382]
オフ・ポリシー・ラーニングは、強化学習エージェントが実行されていないポリシーについて反実的に推論することを可能にする。
関数近似とブートストラップを組み合わせると不安定になる可能性がある。
本稿では,マルコフデータストリームに2つのサンプルを単純に使用することで,二重サンプリング問題を解決する手法を提案する。
論文 参考訳(メタデータ) (2023-08-02T14:16:22Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - Constrained Online Two-stage Stochastic Optimization: Near Optimal Algorithms via Adversarial Learning [1.994307489466967]
有限地平線上の長期制約付きオンライン2段階最適化をT$周期で検討する。
対戦型学習アルゴリズムからオンライン二段階問題のオンラインアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-02-02T10:33:09Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - Asynchronous Training Schemes in Distributed Learning with Time Delay [17.259708772713164]
分散ディープラーニングの文脈では、固定重みや勾配の問題によってアルゴリズムの性能が低下する可能性がある。
本稿では,静的な重みや勾配の問題に対処する別のアプローチを提案する。
また,PC-ASGDの実用版として,トレードオフパラメータの決定を支援する条件を適用して提案する。
論文 参考訳(メタデータ) (2022-08-28T07:14:59Z) - ABCinML: Anticipatory Bias Correction in Machine Learning Applications [9.978142416219294]
そこで本研究では,アルゴリズムがバイアスを緩和するための予測動的学習手法を提案する。
複数の実世界のデータセットに対する実験の結果は、このアプローチが予測バイアス補正を約束していることを示唆している。
論文 参考訳(メタデータ) (2022-06-14T16:26:10Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。