論文の概要: Improve Agents without Retraining: Parallel Tree Search with Off-Policy
Correction
- arxiv url: http://arxiv.org/abs/2107.01715v1
- Date: Sun, 4 Jul 2021 19:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:02:13.835588
- Title: Improve Agents without Retraining: Parallel Tree Search with Off-Policy
Correction
- Title(参考訳): リトレーニングなしエージェントの改善:オフポリケーション補正による並列木探索
- Authors: Assaf Hallak and Gal Dalal, Steven Dalton, Iuri Frosio, Shie Mannor,
Gal Chechik
- Abstract要約: 木探索(TS)における2つの大きな課題に取り組む。
我々はまず、TSと事前学習された値関数による行動選択が、元の事前学習されたエージェントと比較して性能を低下させるという、反直感的な現象を発見し、分析する。
Batch-BFS(Batch-BFS)は,木の各深さのすべてのノードを同時に前進させるGPUワイドファースト検索である。
- 参考スコア(独自算出の注目度): 63.595545216327245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tree Search (TS) is crucial to some of the most influential successes in
reinforcement learning. Here, we tackle two major challenges with TS that limit
its usability: \textit{distribution shift} and \textit{scalability}. We first
discover and analyze a counter-intuitive phenomenon: action selection through
TS and a pre-trained value function often leads to lower performance compared
to the original pre-trained agent, even when having access to the exact state
and reward in future steps. We show this is due to a distribution shift to
areas where value estimates are highly inaccurate and analyze this effect using
Extreme Value theory. To overcome this problem, we introduce a novel off-policy
correction term that accounts for the mismatch between the pre-trained value
and its corresponding TS policy by penalizing under-sampled trajectories. We
prove that our correction eliminates the above mismatch and bound the
probability of sub-optimal action selection. Our correction significantly
improves pre-trained Rainbow agents without any further training, often more
than doubling their scores on Atari games. Next, we address the scalability
issue given by the computational complexity of exhaustive TS that scales
exponentially with the tree depth. We introduce Batch-BFS: a GPU breadth-first
search that advances all nodes in each depth of the tree simultaneously.
Batch-BFS reduces runtime by two orders of magnitude and, beyond inference,
enables also training with TS of depths that were not feasible before. We train
DQN agents from scratch using TS and show improvement in several Atari games
compared to both the original DQN and the more advanced Rainbow.
- Abstract(参考訳): 木探索 (ts) は強化学習において最も影響力のある成功に不可欠である。
ここで、tsのユーザビリティを制限する2つの大きな課題に取り組む: \textit{distribution shift} と \textit{scalability} である。
まず, tsによる行動選択と事前訓練された値関数は, 正確な状態や報酬が得られても, 元の事前訓練されたエージェントと比較して性能が低下することが多い。
これは、値推定が極めて不正確な領域への分布シフトによるもので、Extreme Value理論を用いてこの効果を分析する。
そこで本研究では,事前学習値とそれに対応するtsポリシーとのミスマッチを考慮に入れた,新たなオフ・ポリティリティ補正用語を提案する。
補正によって上記のミスマッチを排除し、準最適動作選択の確率を制限できることを実証する。
我々の補正は、アタリゲームでのスコアを倍増させるよりも、トレーニングを余すことなく事前訓練したレインボーエージェントを著しく改善する。
次に,木深さに指数関数的にスケールする枯渇性tsの計算複雑性が与えるスケーラビリティ問題に対処する。
Batch-BFS: 木の各深さのすべてのノードを同時に前進させるGPU幅優先探索。
batch-bfsはランタイムを2桁削減し、推論に加えて、これまで実現できなかった深さtsでのトレーニングも可能にする。
我々は、TSを用いてDQNエージェントをスクラッチからトレーニングし、元のDQNとより高度なRainbowと比較して、いくつかのAtariゲームで改善を示す。
関連論文リスト
- ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。
ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-06-06T07:40:00Z) - Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。
我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - Efficient local linearity regularization to overcome catastrophic
overfitting [59.463867084204566]
単段階逆行訓練におけるカタストロフィックオーバーフィッティング(CO)は、逆行性テスト精度(最大0%まで)の急激な低下をもたらす。
我々は,従来のAT評価においてCOを効果的かつ効率的に緩和するために,ELLEと呼ばれる正規化項を導入する。
論文 参考訳(メタデータ) (2024-01-21T22:55:26Z) - Test-Time Adaptation via Conjugate Pseudo-labels [21.005027151753477]
テスト時間適応(TTA)とは、ニューラルネットワークを分散シフトに適応させることである。
従来のTTA手法は、TENTにおけるモデル予測のエントロピーのような教師なしの目的を最適化していた。
我々は,多種多様な関数に対して可能な限りのTTA損失をメタ学習しようとすると,TENTのソフトマックスエントロピーと著しく類似した関数(温度スケール版)を復元する。
論文 参考訳(メタデータ) (2022-07-20T04:02:19Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Hindsight Experience Replay with Kronecker Product Approximate Curvature [5.441932327359051]
Hindsight Experience Replay (HER) は強化学習タスクを解決するアルゴリズムの1つである。
しかし、サンプル効率が低下し、収束が遅いため、HERは効率よく動作しない。
自然勾配はモデルパラメータをより収束させることによってこれらの課題を解決する。
提案手法は, 以上の課題を, より優れたサンプル効率, より高速な収束で解決し, 成功率を向上する。
論文 参考訳(メタデータ) (2020-10-09T20:25:14Z) - Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文 参考訳(メタデータ) (2020-07-28T18:30:23Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。