論文の概要: Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.03878v2
- Date: Tue, 4 Jun 2024 05:28:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 11:37:14.942314
- Title: Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning
- Title(参考訳): シーケンス圧縮は強化学習におけるクレジット割り当てを高速化する
- Authors: Aditya A. Ramesh, Kenny Young, Louis Kirsch, Jürgen Schmidhuber,
- Abstract要約: 時間差(TD)学習は、分散を克服するためにブートストラップを使用するが、多くのイテレーションでしか修正できないバイアスを導入する。
ラムダ$-returnターゲットの計算モデルからトランジションの予測確率を利用するチャンク付きTDを提案する。
- 参考スコア(独自算出の注目度): 33.28797183140384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal credit assignment in reinforcement learning is challenging due to delayed and stochastic outcomes. Monte Carlo targets can bridge long delays between action and consequence but lead to high-variance targets due to stochasticity. Temporal difference (TD) learning uses bootstrapping to overcome variance but introduces a bias that can only be corrected through many iterations. TD($\lambda$) provides a mechanism to navigate this bias-variance tradeoff smoothly. Appropriately selecting $\lambda$ can significantly improve performance. Here, we propose Chunked-TD, which uses predicted probabilities of transitions from a model for computing $\lambda$-return targets. Unlike other model-based solutions to credit assignment, Chunked-TD is less vulnerable to model inaccuracies. Our approach is motivated by the principle of history compression and 'chunks' trajectories for conventional TD learning. Chunking with learned world models compresses near-deterministic regions of the environment-policy interaction to speed up credit assignment while still bootstrapping when necessary. We propose algorithms that can be implemented online and show that they solve some problems much faster than conventional TD($\lambda$).
- Abstract(参考訳): 強化学習における時間的クレジット割り当ては、遅れた確率的な結果のために困難である。
モンテカルロの標的は行動と結果の間の長い遅延を橋渡しすることができるが、確率性によって高い分散目標につながる。
時間差(TD)学習は、分散を克服するためにブートストラップを使用するが、多くのイテレーションでしか修正できないバイアスを導入する。
TD($\lambda$)は、このバイアス分散トレードオフをスムーズにナビゲートするメカニズムを提供する。
適切な$\lambda$を選択すると、パフォーマンスが大幅に向上する。
本稿では,Chunked-TDを提案する。これは,$\lambda$-returnターゲットを計算するためのモデルからトランジションの予測確率を利用する。
他のモデルベースの信用代入ソリューションとは異なり、Chunked-TDはモデルの不正確さに弱い。
本手法は,従来のTD学習における履歴圧縮と「チャンク」軌道の原理に動機付けられている。
学習された世界モデルによるチャンキングは、環境と政治の相互作用のほぼ決定論的領域を圧縮し、必要に応じてブートストラップしながらクレジット割り当てを高速化する。
我々は,オンラインで実装可能なアルゴリズムを提案し,従来のTD($\lambda$)よりもはるかに高速に解決できることを示す。
関連論文リスト
- Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration [31.50005609235654]
本研究は,無訓練トークン還元研究の現況を再考する。
トークン還元を3つの異なる段階に分解する「フィルタ相関圧縮」パラダイムを提案する。
10のベンチマークでの実験結果から,本手法は最大82.4%のFLOP削減が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-11-26T18:53:51Z) - Time-Scale Separation in Q-Learning: Extending TD($\triangle$) for Action-Value Function Decomposition [0.0]
本稿では,Q-Learningフレームワーク用のTD($Delta$)の拡張であるQ($Delta$)-Learningを紹介する。
TD($Delta$)は、Q($Delta$)-函数を異なる割引因子に分解することで、複数の時間スケールでの効率的な学習を容易にする。
本稿では,従来のQ-LearningおよびTD学習手法よりもQ($Delta$)-Learningの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-11-21T11:03:07Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - Asynchronous Training Schemes in Distributed Learning with Time Delay [17.259708772713164]
分散ディープラーニングの文脈では、固定重みや勾配の問題によってアルゴリズムの性能が低下する可能性がある。
本稿では,静的な重みや勾配の問題に対処する別のアプローチを提案する。
また,PC-ASGDの実用版として,トレードオフパラメータの決定を支援する条件を適用して提案する。
論文 参考訳(メタデータ) (2022-08-28T07:14:59Z) - ABCinML: Anticipatory Bias Correction in Machine Learning Applications [9.978142416219294]
そこで本研究では,アルゴリズムがバイアスを緩和するための予測動的学習手法を提案する。
複数の実世界のデータセットに対する実験の結果は、このアプローチが予測バイアス補正を約束していることを示唆している。
論文 参考訳(メタデータ) (2022-06-14T16:26:10Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。