論文の概要: Dynamic Action Interpolation: A Universal Approach for Accelerating Reinforcement Learning with Expert Guidance
- arxiv url: http://arxiv.org/abs/2504.18766v1
- Date: Sat, 26 Apr 2025 02:12:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.979086
- Title: Dynamic Action Interpolation: A Universal Approach for Accelerating Reinforcement Learning with Expert Guidance
- Title(参考訳): 動的行動補間:専門家指導による強化学習の高速化のための普遍的アプローチ
- Authors: Wenjun Cao,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、特に早期訓練において、重度のサンプル非効率性に悩まされる。
本稿では,エキスパートとRLアクションを補間する汎用的かつ簡単なフレームワークであるDynamic Action Interpolation (DAI)を提案する。
理論的解析により,DAIは状態訪問分布を再現し,値関数学習を加速することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) suffers from severe sample inefficiency, especially during early training, requiring extensive environmental interactions to perform competently. Existing methods tend to solve this by incorporating prior knowledge, but introduce significant architectural and implementation complexity. We propose Dynamic Action Interpolation (DAI), a universal yet straightforward framework that interpolates expert and RL actions via a time-varying weight $\alpha(t)$, integrating into any Actor-Critic algorithm with just a few lines of code and without auxiliary networks or additional losses. Our theoretical analysis shows that DAI reshapes state visitation distributions to accelerate value function learning while preserving convergence guarantees. Empirical evaluations across MuJoCo continuous control tasks demonstrate that DAI improves early-stage performance by over 160\% on average and final performance by more than 50\%, with the Humanoid task showing a 4$\times$ improvement early on and a 2$\times$ gain at convergence. These results challenge the assumption that complex architectural modifications are necessary for sample-efficient reinforcement learning.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は、特に早期訓練において、厳しいサンプル非効率に悩まされ、広範囲にわたる環境相互作用が必要とされる。
既存の手法では、事前の知識を取り入れて解決する傾向があるが、アーキテクチャや実装の複雑さがかなり大きい。
我々はDAI(Dynamic Action Interpolation)を提案する。DAI(Dynamic Action Interpolation)は、専門家とRLのアクションを時間差$\alpha(t)$で補間し、ほんの数行のコードで任意のアクター・クライブアルゴリズムに統合し、補助的なネットワークや追加の損失を伴わない、普遍的で簡単なフレームワークである。
我々の理論的分析により,DAIはコンバージェンス保証を保ちながら,状態訪問分布を再評価し,値関数学習を加速することを示した。
MuJoCoの継続的制御タスクに対する実証的な評価は、DAIが平均と最終パフォーマンスで160\%以上改善し、Humanoidタスクが早期に4$\times$改善、収束時に2$\times$ゲインを示していることを示している。
これらの結果は、サンプル効率の強化学習には複雑なアーキテクチャ修正が必要であるという仮定に挑戦する。
関連論文リスト
- Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文 参考訳(メタデータ) (2025-03-05T15:24:11Z) - USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - PEAR: Primitive Enabled Adaptive Relabeling for Boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep
Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。
我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文 参考訳(メタデータ) (2021-09-27T12:42:05Z) - Neurally Augmented ALISTA [15.021419552695066]
本稿では、LSTMネットワークを用いて、再構成中の各ターゲットベクトルのステップサイズと閾値を個別に計算するニューラルネットワークALISTAを提案する。
提案手法はスパース再構成における経験的性能をさらに向上させ,特に圧縮比がより困難になるにつれて,既存のアルゴリズムのマージンが向上することを示す。
論文 参考訳(メタデータ) (2020-10-05T11:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。