論文の概要: Learning Expected Emphatic Traces for Deep RL
- arxiv url: http://arxiv.org/abs/2107.05405v1
- Date: Mon, 12 Jul 2021 13:14:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:12:02.666044
- Title: Learning Expected Emphatic Traces for Deep RL
- Title(参考訳): 深部RLにおける強調トレースの学習
- Authors: Ray Jiang, Shangtong Zhang, Veronica Chelu, Adam White, Hado van
Hasselt
- Abstract要約: オフポリシーサンプリングと経験リプレイは、サンプル効率を改善し、モデルフリーの時間差学習手法をスケールするための鍵となる。
リプレイと組み合わせることができるマルチステップ強調重み付けと、必要な強調重み付けを学習するための時間反転TD学習アルゴリズムを開発する。
- 参考スコア(独自算出の注目度): 32.984880782688535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy sampling and experience replay are key for improving sample
efficiency and scaling model-free temporal difference learning methods. When
combined with function approximation, such as neural networks, this combination
is known as the deadly triad and is potentially unstable. Recently, it has been
shown that stability and good performance at scale can be achieved by combining
emphatic weightings and multi-step updates. This approach, however, is
generally limited to sampling complete trajectories in order, to compute the
required emphatic weighting. In this paper we investigate how to combine
emphatic weightings with non-sequential, off-line data sampled from a replay
buffer. We develop a multi-step emphatic weighting that can be combined with
replay, and a time-reversed $n$-step TD learning algorithm to learn the
required emphatic weighting. We show that these state weightings reduce
variance compared with prior approaches, while providing convergence
guarantees. We tested the approach at scale on Atari 2600 video games, and
observed that the new X-ETD($n$) agent improved over baseline agents,
highlighting both the scalability and broad applicability of our approach.
- Abstract(参考訳): オフポリシーサンプリングと経験リプレイは、サンプル効率の向上とモデルフリーの時間差学習手法のスケーリングの鍵である。
ニューラルネットワークのような関数近似と組み合わせると、この組み合わせは致命的な三重項と呼ばれ、潜在的に不安定である。
近年,強調重み付けと多段階更新を組み合わせることで,安定性とスケール性能が向上することが示されている。
しかし、このアプローチは一般に、必要な強調重み付けを計算するために完全な軌跡のサンプリングに限られる。
本稿では,強調重み付けをリプレイバッファからサンプリングした非逐次オフラインデータと組み合わせる方法について検討する。
リプレイと組み合わせることができる多段階の強調重み付けと、時間反転したn$-step td学習アルゴリズムを開発し、必要な強調重み付けを学習する。
これらの状態重み付けは, 従来の手法に比べてばらつきを低減し, 収束保証を提供する。
我々はAtari 2600のビデオゲームで大規模にテストを行い、新しいX-ETD($n$)エージェントがベースラインエージェントよりも改善され、我々のアプローチのスケーラビリティと幅広い適用性の両方を強調した。
関連論文リスト
- Stabilizing Linear Passive-Aggressive Online Learning with Weighted Reservoir Sampling [46.01254613933967]
オンライン学習手法は、高次元ストリーミングデータ、アウトオブコア処理、その他のスループットに敏感なアプリケーションに依然として有効である。
このようなアルゴリズムの多くは、その収束の鍵として個々のエラーへの高速な適応に依存している。
このようなアルゴリズムは理論上の後悔は少ないが、現実の展開では個々の外れ値に敏感であり、アルゴリズムが過度に修正される可能性がある。
論文 参考訳(メタデータ) (2024-10-31T03:35:48Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Understanding the effect of varying amounts of replay per step [0.0]
本研究では,マウンテンカー環境におけるDQN(Deep Q-Network)というモデルフリーアルゴリズムにおいて,各ステップごとの様々なリプレイの効果について検討する。
論文 参考訳(メタデータ) (2023-02-20T20:54:11Z) - A Data-Centric Approach for Improving Adversarial Training Through the
Lens of Out-of-Distribution Detection [0.4893345190925178]
複雑なアルゴリズムを適用して効果を緩和するのではなく, トレーニング手順から直接ハードサンプルを検出し, 除去することを提案する。
SVHN と CIFAR-10 データセットを用いた結果,計算コストの増大を伴わずに対角訓練の改善に本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-01-25T08:13:50Z) - Look Back When Surprised: Stabilizing Reverse Experience Replay for
Neural Approximation [7.6146285961466]
最近開発された理論上は厳格なリバース・エクスペリエンス・リプレイ(RER)について考察する。
実験を通して、様々なタスクにおけるPER(Preferd Experience Replay)のようなテクニックよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-06-07T10:42:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。
本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。
我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文 参考訳(メタデータ) (2020-05-21T12:53:36Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。