論文の概要: Improve Agents without Retraining: Parallel Tree Search with Off-Policy
Correction
- arxiv url: http://arxiv.org/abs/2107.01715v1
- Date: Sun, 4 Jul 2021 19:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:02:13.835588
- Title: Improve Agents without Retraining: Parallel Tree Search with Off-Policy
Correction
- Title(参考訳): リトレーニングなしエージェントの改善:オフポリケーション補正による並列木探索
- Authors: Assaf Hallak and Gal Dalal, Steven Dalton, Iuri Frosio, Shie Mannor,
Gal Chechik
- Abstract要約: 木探索(TS)における2つの大きな課題に取り組む。
我々はまず、TSと事前学習された値関数による行動選択が、元の事前学習されたエージェントと比較して性能を低下させるという、反直感的な現象を発見し、分析する。
Batch-BFS(Batch-BFS)は,木の各深さのすべてのノードを同時に前進させるGPUワイドファースト検索である。
- 参考スコア(独自算出の注目度): 63.595545216327245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tree Search (TS) is crucial to some of the most influential successes in
reinforcement learning. Here, we tackle two major challenges with TS that limit
its usability: \textit{distribution shift} and \textit{scalability}. We first
discover and analyze a counter-intuitive phenomenon: action selection through
TS and a pre-trained value function often leads to lower performance compared
to the original pre-trained agent, even when having access to the exact state
and reward in future steps. We show this is due to a distribution shift to
areas where value estimates are highly inaccurate and analyze this effect using
Extreme Value theory. To overcome this problem, we introduce a novel off-policy
correction term that accounts for the mismatch between the pre-trained value
and its corresponding TS policy by penalizing under-sampled trajectories. We
prove that our correction eliminates the above mismatch and bound the
probability of sub-optimal action selection. Our correction significantly
improves pre-trained Rainbow agents without any further training, often more
than doubling their scores on Atari games. Next, we address the scalability
issue given by the computational complexity of exhaustive TS that scales
exponentially with the tree depth. We introduce Batch-BFS: a GPU breadth-first
search that advances all nodes in each depth of the tree simultaneously.
Batch-BFS reduces runtime by two orders of magnitude and, beyond inference,
enables also training with TS of depths that were not feasible before. We train
DQN agents from scratch using TS and show improvement in several Atari games
compared to both the original DQN and the more advanced Rainbow.
- Abstract(参考訳): 木探索 (ts) は強化学習において最も影響力のある成功に不可欠である。
ここで、tsのユーザビリティを制限する2つの大きな課題に取り組む: \textit{distribution shift} と \textit{scalability} である。
まず, tsによる行動選択と事前訓練された値関数は, 正確な状態や報酬が得られても, 元の事前訓練されたエージェントと比較して性能が低下することが多い。
これは、値推定が極めて不正確な領域への分布シフトによるもので、Extreme Value理論を用いてこの効果を分析する。
そこで本研究では,事前学習値とそれに対応するtsポリシーとのミスマッチを考慮に入れた,新たなオフ・ポリティリティ補正用語を提案する。
補正によって上記のミスマッチを排除し、準最適動作選択の確率を制限できることを実証する。
我々の補正は、アタリゲームでのスコアを倍増させるよりも、トレーニングを余すことなく事前訓練したレインボーエージェントを著しく改善する。
次に,木深さに指数関数的にスケールする枯渇性tsの計算複雑性が与えるスケーラビリティ問題に対処する。
Batch-BFS: 木の各深さのすべてのノードを同時に前進させるGPU幅優先探索。
batch-bfsはランタイムを2桁削減し、推論に加えて、これまで実現できなかった深さtsでのトレーニングも可能にする。
我々は、TSを用いてDQNエージェントをスクラッチからトレーニングし、元のDQNとより高度なRainbowと比較して、いくつかのAtariゲームで改善を示す。
関連論文リスト
- Detection and Mitigation of Byzantine Attacks in Distributed Training [24.951227624475443]
ワーカノードの異常なビザンチン挙動は、トレーニングを脱線させ、推論の品質を損なう可能性がある。
最近の研究は、幅広い攻撃モデルを検討し、歪んだ勾配を補正するために頑健な集約と/または計算冗長性を探究している。
本研究では、強力な攻撃モデルについて検討する:$q$ omniscient adversaries with full knowledge of the defense protocol that can change from iteration to iteration to weak one: $q$ randomly selected adversaries with limited collusion abilities。
論文 参考訳(メタデータ) (2022-08-17T05:49:52Z) - Test-Time Adaptation via Conjugate Pseudo-labels [21.005027151753477]
テスト時間適応(TTA)とは、ニューラルネットワークを分散シフトに適応させることである。
従来のTTA手法は、TENTにおけるモデル予測のエントロピーのような教師なしの目的を最適化していた。
我々は,多種多様な関数に対して可能な限りのTTA損失をメタ学習しようとすると,TENTのソフトマックスエントロピーと著しく類似した関数(温度スケール版)を復元する。
論文 参考訳(メタデータ) (2022-07-20T04:02:19Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z) - Hindsight Experience Replay with Kronecker Product Approximate Curvature [5.441932327359051]
Hindsight Experience Replay (HER) は強化学習タスクを解決するアルゴリズムの1つである。
しかし、サンプル効率が低下し、収束が遅いため、HERは効率よく動作しない。
自然勾配はモデルパラメータをより収束させることによってこれらの課題を解決する。
提案手法は, 以上の課題を, より優れたサンプル効率, より高速な収束で解決し, 成功率を向上する。
論文 参考訳(メタデータ) (2020-10-09T20:25:14Z) - Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文 参考訳(メタデータ) (2020-07-28T18:30:23Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。