論文の概要: Identifying Co-Adaptation of Algorithmic and Implementational
Innovations in Deep Reinforcement Learning: A Taxonomy and Case Study of
Inference-based Algorithms
- arxiv url: http://arxiv.org/abs/2103.17258v1
- Date: Wed, 31 Mar 2021 17:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 15:18:34.050037
- Title: Identifying Co-Adaptation of Algorithmic and Implementational
Innovations in Deep Reinforcement Learning: A Taxonomy and Case Study of
Inference-based Algorithms
- Title(参考訳): 深層強化学習におけるアルゴリズムと実装の共適応:推論に基づくアルゴリズムの分類と事例研究
- Authors: Hiroki Furuta, Tadashi Kozuno, Tatsuya Matsushima, Yutaka Matsuo,
Shixiang Shane Gu
- Abstract要約: 我々は、アルゴリズムの革新と実装決定を分離するために、一連の推論に基づくアクター批判アルゴリズムに焦点を当てる。
実装の詳細がアルゴリズムの選択に一致すると、パフォーマンスが大幅に低下します。
結果は、どの実装の詳細がアルゴリズムと共適応され、共進化しているかを示す。
- 参考スコア(独自算出の注目度): 15.338931971492288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently many algorithms were devised for reinforcement learning (RL) with
function approximation. While they have clear algorithmic distinctions, they
also have many implementation differences that are algorithm-agnostic and
sometimes subtle. Such mixing of algorithmic novelty and implementation
craftsmanship makes rigorous analyses of the sources of performance
improvements difficult. In this work, we focus on a series of inference-based
actor-critic algorithms -- MPO, AWR, and SAC -- to decouple their algorithmic
innovations and implementation decisions. We present unified derivations
through a single control-as-inference objective, where we can categorize each
algorithm as based on either Expectation-Maximization (EM) or direct
Kullback-Leibler (KL) divergence minimization and treat the rest of
specifications as implementation details. We performed extensive ablation
studies, and identified substantial performance drops whenever implementation
details are mismatched for algorithmic choices. These results show which
implementation details are co-adapted and co-evolved with algorithms, and which
are transferable across algorithms: as examples, we identified that tanh policy
and network sizes are highly adapted to algorithmic types, while layer
normalization and ELU are critical for MPO's performances but also transfer to
noticeable gains in SAC. We hope our work can inspire future work to further
demystify sources of performance improvements across multiple algorithms and
allow researchers to build on one another's both algorithmic and
implementational innovations.
- Abstract(参考訳): 近年,関数近似による強化学習 (rl) のために多くのアルゴリズムが考案されている。
明確なアルゴリズムの区別はあるが、アルゴリズムに依存しない時に微妙な実装の違いも多い。
このようなアルゴリズムのノベルティと実装の職人技の混合は、パフォーマンス改善の源泉の厳密な分析を困難にしている。
本研究では,アルゴリズムの革新と実装決定を分離するために,一連の推論に基づくアクタ批判アルゴリズム(MPO, AWR, SAC)に焦点を当てる。
本稿では,単一制御-参照目的による統一導出について述べる。各アルゴリズムを期待-最大化(EM)または直接KL(Kulback-Leibler)の発散最小化に基づいて分類し,残りの仕様を実装詳細として扱う。
我々は広範なアブレーション研究を行い,実装の詳細がアルゴリズム選択と一致しない場合,性能低下の程度を確認した。
これらの結果は、実装の詳細がアルゴリズムと共適応され、アルゴリズム間で転送可能であることを示す。例えば、タンのポリシーとネットワークサイズがアルゴリズム型に高度に適応しているのに対し、層正規化とELUはMPOの性能には重要であり、SACの顕著な利得にも変換可能である。
私たちの研究が将来の成果を刺激して、複数のアルゴリズムにわたるパフォーマンス改善の源をさらに深め、研究者がアルゴリズムと実装の両方のイノベーションに基づいて構築できることを願っています。
関連論文リスト
- On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。
LLMは素晴らしい経験的成功を収めた。
提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - Dual Algorithmic Reasoning [9.701208207491879]
本稿では,基礎となるアルゴリズム問題の双対性を利用してアルゴリズムを学習することを提案する。
アルゴリズム学習における最適化問題の2つの定義を同時に学習することで、より良い学習が可能になることを実証する。
次に、難易度の高い脳血管分類タスクにデプロイすることで、二元アルゴリズム推論の現実的な実用性を検証する。
論文 参考訳(メタデータ) (2023-02-09T08:46:23Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - The CLRS Algorithmic Reasoning Benchmark [28.789225199559834]
アルゴリズムの学習表現は機械学習の新たな領域であり、ニューラルネットワークから古典的なアルゴリズムで概念をブリッジしようとしている。
本稿では,従来のアルゴリズムを包括するCLRS Algorithmic Reasoning Benchmarkを提案する。
我々のベンチマークは、ソート、探索、動的プログラミング、グラフアルゴリズム、文字列アルゴリズム、幾何アルゴリズムなど、様々なアルゴリズムの推論手順にまたがっている。
論文 参考訳(メタデータ) (2022-05-31T09:56:44Z) - A Pragmatic Look at Deep Imitation Learning [0.3626013617212666]
我々は6つの異なる対向的模倣学習アルゴリズムを再実装する。
広く使われている専門的軌跡データセットで評価する。
GAILは、様々なサンプルサイズにわたって、一貫してよく機能する。
論文 参考訳(メタデータ) (2021-08-04T06:33:10Z) - Provably Faster Algorithms for Bilevel Optimization [54.83583213812667]
バイレベル最適化は多くの重要な機械学習アプリケーションに広く適用されている。
両レベル最適化のための2つの新しいアルゴリズムを提案する。
両アルゴリズムが$mathcalO(epsilon-1.5)$の複雑さを達成し,既存のアルゴリズムを桁違いに上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-08T21:05:30Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - Benchmarking Simulation-Based Inference [5.3898004059026325]
確率的モデリングの最近の進歩は、確率の数値的評価を必要としないシミュレーションに基づく推論アルゴリズムを多数もたらした。
推論タスクと適切なパフォーマンス指標を備えたベンチマークを,アルゴリズムの初期選択とともに提供する。
性能指標の選択は重要であり、最先端のアルゴリズムでさえ改善の余地があり、逐次推定によりサンプリング効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-01-12T18:31:22Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - A Brief Look at Generalization in Visual Meta-Reinforcement Learning [56.50123642237106]
メタ強化学習アルゴリズムの一般化性能を評価する。
これらのアルゴリズムは、困難なタスクで評価された場合、強いオーバーフィッティングを示すことができる。
論文 参考訳(メタデータ) (2020-06-12T15:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。