論文の概要: Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL
- arxiv url: http://arxiv.org/abs/2403.03950v1
- Date: Wed, 6 Mar 2024 18:55:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 13:53:17.096091
- Title: Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL
- Title(参考訳): Stop Regressing: スケーラブルなDeep RLの分類によるバリュー関数のトレーニング
- Authors: Jesse Farebrother, Jordi Orbay, Quan Vuong, Adrien Ali Ta\"iga, Yevgen
Chebotar, Ted Xiao, Alex Irpan, Sergey Levine, Pablo Samuel Castro,
Aleksandra Faust, Aviral Kumar, Rishabh Agarwal
- Abstract要約: 分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
- 参考スコア(独自算出の注目度): 109.44370201929246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value functions are a central component of deep reinforcement learning (RL).
These functions, parameterized by neural networks, are trained using a mean
squared error regression objective to match bootstrapped target values.
However, scaling value-based RL methods that use regression to large networks,
such as high-capacity Transformers, has proven challenging. This difficulty is
in stark contrast to supervised learning: by leveraging a cross-entropy
classification loss, supervised methods have scaled reliably to massive
networks. Observing this discrepancy, in this paper, we investigate whether the
scalability of deep RL can also be improved simply by using classification in
place of regression for training value functions. We demonstrate that value
functions trained with categorical cross-entropy significantly improves
performance and scalability in a variety of domains. These include: single-task
RL on Atari 2600 games with SoftMoEs, multi-task RL on Atari with large-scale
ResNets, robotic manipulation with Q-transformers, playing Chess without
search, and a language-agent Wordle task with high-capacity Transformers,
achieving state-of-the-art results on these domains. Through careful analysis,
we show that the benefits of categorical cross-entropy primarily stem from its
ability to mitigate issues inherent to value-based RL, such as noisy targets
and non-stationarity. Overall, we argue that a simple shift to training value
functions with categorical cross-entropy can yield substantial improvements in
the scalability of deep RL at little-to-no cost.
- Abstract(参考訳): 値関数は深層強化学習(RL)の中心的な構成要素である。
ニューラルネットワークによってパラメータ化されたこれらの関数は、ブートストラップされたターゲット値にマッチする平均二乗誤差回帰目的を用いてトレーニングされる。
しかし,大容量変圧器などの大規模ネットワークへの回帰を用いた値ベースRL手法のスケーリングは困難であることが証明されている。
この困難さは教師付き学習とは対照的であり、クロスエントロピーの分類損失を活用することにより、教師付き手法は大規模ネットワークに確実に拡張されている。
本稿では,この違いを観測し,学習値関数の回帰に代えて分類を行うことで,深部RLのスケーラビリティを向上できるかどうかを考察する。
分類的クロスエントロピーで訓練された値関数は、様々なドメインのパフォーマンスと拡張性を大幅に改善する。
それらは、SoftMoEを使ったAtari 2600ゲーム上のシングルタスクRL、大規模ResNetを使ったAtari上のマルチタスクRL、Q変換器によるロボット操作、検索なしでチェスをプレイする、高容量変換器を使った言語支援のWordleタスク、これらのドメインで最先端の結果を達成する。
注意深い分析を通じて,カテゴリー的クロスエントロピーの利点は,ノイズのあるターゲットや非定常性といった,価値ベースのrlに固有の問題を緩和する能力に起因していることが示された。
全体としては、分類的クロスエントロピーによる価値関数のトレーニングへの簡単なシフトは、ほとんど無駄なコストでディープRLのスケーラビリティを大幅に改善する可能性があると論じる。
関連論文リスト
- N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs [42.446740732573296]
コンテキスト内学習は、トランスフォーマーのようなモデルが重みを更新することなく、新しいタスクに適応できるようにする。
アルゴリズム蒸留(AD)のような既存のコンテキスト内RL手法では、大きく、慎重にキュレートされたデータセットが要求される。
本研究では,n-gram誘導ヘッドをインコンテキストRLの変換器に統合した。
論文 参考訳(メタデータ) (2024-11-04T10:31:03Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Pointerformer: Deep Reinforced Multi-Pointer Transformer for the
Traveling Salesman Problem [67.32731657297377]
トラベリングセールスマン問題(TSP)は、もともと輸送と物流の領域で発生した古典的な経路最適化問題である。
近年, 深層強化学習は高い推論効率のため, TSP の解法として採用されている。
本稿では,多点変換器をベースとした新しいエンドツーエンドDRL手法であるPointerformerを提案する。
論文 参考訳(メタデータ) (2023-04-19T03:48:32Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Hypernetworks in Meta-Reinforcement Learning [47.25270748922176]
マルチタスク強化学習(RL)とメタRLは、関連するタスクの分布を一般化することにより、サンプル効率を向上させることを目的としている。
最先端の手法はしばしば、各タスクを個別に学習する退化したソリューションよりも優れている。
Hypernetworksは、退化ソリューションの別々のポリシーを複製し、メタRLに適用できるので、将来性のある道です。
論文 参考訳(メタデータ) (2022-10-20T15:34:52Z) - Transformers are Meta-Reinforcement Learners [0.060917028769172814]
本稿では,トランスアーキテクチャを用いたメモリ再配置機構を模倣したメタRLエージェントTrMRLを提案する。
本稿では,各層におけるベイズリスクを最小限に抑えるコンセンサス表現を自己注意で計算することを示す。
その結果, TrMRLは同等あるいは優れた性能, サンプル効率, アウト・オブ・ディストリビューションの一般化を示すことがわかった。
論文 参考訳(メタデータ) (2022-06-14T06:21:13Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z) - Implicit Under-Parameterization Inhibits Data-Efficient Deep
Reinforcement Learning [97.28695683236981]
さらなる勾配更新により、現在の値ネットワークの表現性が低下する。
AtariとGymのベンチマークでは、オフラインとオンラインのRL設定の両方でこの現象を実証する。
論文 参考訳(メタデータ) (2020-10-27T17:55:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。