Fugu-MT 論文翻訳(概要): The RL Perceptron: Generalisation Dynamics of Policy Learning in High Dimensions

論文の概要: The RL Perceptron: Generalisation Dynamics of Policy Learning in High Dimensions

arxiv url: http://arxiv.org/abs/2306.10404v3
Date: Tue, 27 Jun 2023 10:37:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-28 16:17:35.314340
Title: The RL Perceptron: Generalisation Dynamics of Policy Learning in High Dimensions
Title（参考訳）: rlパーセプトロン:高次元における政策学習の一般化ダイナミクス
Authors: Nishil Patel, Sebastian Lee, Stefano Sarao Mannelli, Sebastian Goldt, Adrew Saxe
Abstract要約: 強化学習アルゴリズムは、様々な領域において変形的であることが証明されている。 RLの多くの理論は、離散状態空間や最悪のケース解析に焦点を当てている。本稿では,様々な学習プロトコルを捉えることができるRLの高次元解像モデルを提案する。
参考スコア（独自算出の注目度）: 9.922132565411664
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) algorithms have proven transformative in a range of domains. To tackle real-world domains, these systems often use neural networks to learn policies directly from pixels or other high-dimensional sensory input. By contrast, much theory of RL has focused on discrete state spaces or worst-case analysis, and fundamental questions remain about the dynamics of policy learning in high-dimensional settings. Here, we propose a solvable high-dimensional model of RL that can capture a variety of learning protocols, and derive its typical dynamics as a set of closed-form ordinary differential equations (ODEs). We derive optimal schedules for the learning rates and task difficulty - analogous to annealing schemes and curricula during training in RL - and show that the model exhibits rich behaviour, including delayed learning under sparse rewards; a variety of learning regimes depending on reward baselines; and a speed-accuracy trade-off driven by reward stringency. Experiments on variants of the Procgen game "Bossfight" and Arcade Learning Environment game "Pong" also show such a speed-accuracy trade-off in practice. Together, these results take a step towards closing the gap between theory and practice in high-dimensional RL.
Abstract（参考訳）: 強化学習 (Reinforcement Learning, RL) アルゴリズムは、様々な領域において変形を証明している。現実世界のドメインに取り組むために、これらのシステムはニューラルネットワークを使ってピクセルや他の高次元センサー入力から直接ポリシーを学ぶ。対照的に、RLの多くの理論は離散状態空間や最悪のケース解析に焦点を合わせており、高次元環境における政策学習のダイナミクスに関する根本的な疑問が残っている。本稿では、様々な学習プロトコルをキャプチャし、その典型的ダイナミクスを閉形式常微分方程式(odes)の集合として導出する、rlの可解な高次元モデルを提案する。学習速度と課題難易度に対する最適スケジュール(rlにおけるトレーニング中のアニーリングスキームやカリキュラムに類似)を導出し、このモデルが低報酬下での遅延学習を含むリッチな振る舞いを示すこと、報酬ベースラインに依存する様々な学習レジーム、報酬の厳格性によって駆動される速度・正確性トレードオフを示す。 Procgen ゲーム "Bossfight" や Arcade Learning Environment ゲーム "Pong" の変種に関する実験も、実際にそのような速度精度のトレードオフを示している。これらの結果は、高次元RLにおける理論と実践の間のギャップを埋めるための一歩となる。

関連論文リスト

Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2026-01-06T09:28:53Z)
Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文参考訳（メタデータ） (2025-12-15T18:02:35Z)
Sample-efficient and Scalable Exploration in Continuous-Time RL [39.99126118024949]
本研究では,非線形常微分方程式を用いて未知系の力学を表現した連続時間強化学習の問題を考察する。我々はガウス過程やベイズニューラルネットワークのような確率モデルを利用して、基礎となるODEの不確実性を考慮したモデルを学ぶ。これにより、連続時間モデルベースのRLに対するスケーラブルでサンプル効率のよいアプローチが得られる。
論文参考訳（メタデータ） (2025-10-28T14:54:12Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。 ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文参考訳（メタデータ） (2024-10-28T05:29:38Z)
Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文参考訳（メタデータ） (2024-05-03T12:21:43Z)
Adaptive action supervision in reinforcement learning from real-world multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文参考訳（メタデータ） (2023-05-22T13:33:37Z)
Entropy Regularized Reinforcement Learning with Cascading Networks [9.973226671536041]
Deep RLは関数近似器としてニューラルネットワークを使用する。 RLの大きな難しさの1つは、i.i.d.データの欠如である。本研究では,ニューラルネットワークを用いた教師なし学習コミュニティの共通実践に挑戦する。
論文参考訳（メタデータ） (2022-10-16T10:28:59Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Deep Active Learning by Leveraging Training Dynamics [57.95155565319465]
本稿では,学習力学を最大化するためにサンプルを選択する理論駆動型深層能動学習法(Dynamical)を提案する。動的学習は、他のベースラインを一貫して上回るだけでなく、大規模なディープラーニングモデルでもうまくスケール可能であることを示す。
論文参考訳（メタデータ） (2021-10-16T16:51:05Z)
Catastrophic Interference in Reinforcement Learning: A Solution Based on Context Division and Knowledge Distillation [8.044847478961882]
コンテクスト」の概念をシングルタスク強化学習に導入する。我々は、コンテキスト分割と知識蒸留駆動RLと呼ばれる新しいスキームを開発する。以上の結果から,CDaKDはメモリ容量の変動により,既存のRLアルゴリズムの性能を継続的に向上させることができることがわかった。
論文参考訳（メタデータ） (2021-09-01T12:02:04Z)
Trajectory-wise Multiple Choice Learning for Dynamics Generalization in Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文参考訳（メタデータ） (2020-10-26T03:20:42Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)
Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文参考訳（メタデータ） (2020-06-15T18:37:38Z)
The Adversarial Resilience Learning Architecture for AI-based Modelling, Exploration, and Operation of Complex Cyber-Physical Systems [0.0]
本稿では、複雑な環境チェックとレジリエントな操作に対する新しいアプローチを定式化する、ARL(Adversarial Learning)の概念について述べる。 ARLのクインテッサンスは、システムを探究し、ドメインの知識なしに互いに訓練するエージェントの両方にある。本稿では、モデルベースDRLベースのアルゴリズムと同様に、広範囲のモデルフリーを使用できるARLソフトウェアアーキテクチャを紹介する。
論文参考訳（メタデータ） (2020-05-27T19:19:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。