Fugu-MT 論文翻訳(概要): Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning

論文の概要: Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2405.03878v1
Date: Mon, 6 May 2024 21:49:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 15:57:58.630931
Title: Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning
Title（参考訳）: シーケンス圧縮は強化学習におけるクレジット割り当てを高速化する
Authors: Aditya A. Ramesh, Kenny Young, Louis Kirsch, Jürgen Schmidhuber,
Abstract要約: 時間差(TD)学習は、分散を克服するためにブートストラップを使用するが、多くのイテレーションでしか修正できないバイアスを導入する。ラムダ$-returnターゲットの計算モデルからトランジションの予測確率を利用するチャンク付きTDを提案する。
参考スコア（独自算出の注目度）: 33.28797183140384
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Temporal credit assignment in reinforcement learning is challenging due to delayed and stochastic outcomes. Monte Carlo targets can bridge long delays between action and consequence but lead to high-variance targets due to stochasticity. Temporal difference (TD) learning uses bootstrapping to overcome variance but introduces a bias that can only be corrected through many iterations. TD($\lambda$) provides a mechanism to navigate this bias-variance tradeoff smoothly. Appropriately selecting $\lambda$ can significantly improve performance. Here, we propose Chunked-TD, which uses predicted probabilities of transitions from a model for computing $\lambda$-return targets. Unlike other model-based solutions to credit assignment, Chunked-TD is less vulnerable to model inaccuracies. Our approach is motivated by the principle of history compression and 'chunks' trajectories for conventional TD learning. Chunking with learned world models compresses near-deterministic regions of the environment-policy interaction to speed up credit assignment while still bootstrapping when necessary. We propose algorithms that can be implemented online and show that they solve some problems much faster than conventional TD($\lambda$).
Abstract（参考訳）: 強化学習における時間的クレジット割り当ては、遅れた確率的な結果のために困難である。モンテカルロの標的は行動と結果の間の長い遅延を橋渡しすることができるが、確率性によって高い分散目標につながる。時間差(TD)学習は、分散を克服するためにブートストラップを使用するが、多くのイテレーションでしか修正できないバイアスを導入する。 TD($\lambda$)は、このバイアス分散トレードオフをスムーズにナビゲートするメカニズムを提供する。適切な$\lambda$を選択すると、パフォーマンスが大幅に向上する。本稿では,Chunked-TDを提案する。これは,$\lambda$-returnターゲットを計算するためのモデルからトランジションの予測確率を利用する。他のモデルベースの信用代入ソリューションとは異なり、Chunked-TDはモデルの不正確さに弱い。本手法は,従来のTD学習における履歴圧縮と「チャンク」軌道の原理に動機付けられている。学習された世界モデルによるチャンキングは、環境と政治の相互作用のほぼ決定論的領域を圧縮し、必要に応じてブートストラップしながらクレジット割り当てを高速化する。我々は,オンラインで実装可能なアルゴリズムを提案し,従来のTD($\lambda$)よりもはるかに高速に解決できることを示す。

関連論文リスト

Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [59.6658995479243]
P&M(texttext-Perturb-and-Merge)は,モデルマージをCLパラダイムに統合し,忘れることを避けるための新しい連続学習フレームワークである。理論的解析により、全てのタスクにおける総損失増加を最小化し、最適マージ係数の解析解を導出する。提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-28T14:14:19Z)
Temporal Difference Flows [82.24174052059352]
Geometric Horizon Models (GHMs) は、将来の状態を直接予測することで、魅力的な代替手段を提供する。既存の手法は、列車時のブートストラップ予測や、長い地平線で高品質な予測を生成するのに苦慮している。本稿では,従来の手法の水平長の5倍以上の精度で正確なGHMを学習するために,確率経路上の新しいベルマン方程式の構造を利用した時間差流(TD-Flow)を提案する。
論文参考訳（メタデータ） (2025-03-12T20:30:07Z)
Accelerating Multi-Task Temporal Difference Learning under Low-Rank Representation [12.732028509861829]
低ランク表現環境下でのマルチタスク強化学習(RL)における政策評価問題について検討する。そこで我々は,TD学習の更新に,いわゆるtruncatedの特異値分解ステップを統合する,新しいTD学習法を提案する。実験の結果,提案手法は古典的なTD学習よりも優れており,性能差は$r$が減少するにつれて増大することがわかった。
論文参考訳（メタデータ） (2025-03-03T20:07:45Z)
ETS: Efficient Tree Search for Inference-Time Scaling [61.553681244572914]
テストタイムの計算スケーリングにおいて有望なアプローチのひとつは、プロセス報酬モデルに対する検索である。木探索過程における軌跡の多様性は、多様性の増大がさらなる探索を促進するため、探索の精度に影響を与える。本稿では,冗長なトラジェクトリを抽出し,必要な多様なトラジェクトリを維持しながら,KVの共有を促進する効率的なツリー探索(ETS)を提案する。
論文参考訳（メタデータ） (2025-02-19T09:30:38Z)
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration [31.50005609235654]
本研究は,無訓練トークン還元研究の現況を再考する。トークン還元を3つの異なる段階に分解する「フィルタ相関圧縮」パラダイムを提案する。 10のベンチマークでの実験結果から,本手法は最大82.4%のFLOP削減が可能であることが示唆された。
論文参考訳（メタデータ） (2024-11-26T18:53:51Z)
Time-Scale Separation in Q-Learning: Extending TD($\triangle$) for Action-Value Function Decomposition [0.0]
本稿では,Q-Learningフレームワーク用のTD($Delta$)の拡張であるQ($Delta$)-Learningを紹介する。 TD($Delta$)は、Q($Delta$)-函数を異なる割引因子に分解することで、複数の時間スケールでの効率的な学習を容易にする。本稿では,従来のQ-LearningおよびTD学習手法よりもQ($Delta$)-Learningの方が優れていることを示す。
論文参考訳（メタデータ） (2024-11-21T11:03:07Z)
Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文参考訳（メタデータ） (2024-10-18T22:38:08Z)
TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。理論的に健全で高性能な単純なCL法を設計することで,このギャップを埋めることを目指している。
論文参考訳（メタデータ） (2024-10-01T12:58:37Z)
RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文参考訳（メタデータ） (2023-07-05T12:49:02Z)
Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。 CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文参考訳（メタデータ） (2023-02-17T18:45:04Z)
Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文参考訳（メタデータ） (2023-01-03T04:09:38Z)
Asynchronous Training Schemes in Distributed Learning with Time Delay [17.259708772713164]
分散ディープラーニングの文脈では、固定重みや勾配の問題によってアルゴリズムの性能が低下する可能性がある。本稿では,静的な重みや勾配の問題に対処する別のアプローチを提案する。また,PC-ASGDの実用版として,トレードオフパラメータの決定を支援する条件を適用して提案する。
論文参考訳（メタデータ） (2022-08-28T07:14:59Z)
ABCinML: Anticipatory Bias Correction in Machine Learning Applications [9.978142416219294]
そこで本研究では,アルゴリズムがバイアスを緩和するための予測動的学習手法を提案する。複数の実世界のデータセットに対する実験の結果は、このアプローチが予測バイアス補正を約束していることを示唆している。
論文参考訳（メタデータ） (2022-06-14T16:26:10Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文参考訳（メタデータ） (2020-03-02T05:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。