論文の概要: An Empirical Study of Deep Reinforcement Learning in Continuing Tasks
- arxiv url: http://arxiv.org/abs/2501.06937v1
- Date: Sun, 12 Jan 2025 21:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:25:31.530614
- Title: An Empirical Study of Deep Reinforcement Learning in Continuing Tasks
- Title(参考訳): 継続作業における深層強化学習の実証的研究
- Authors: Yi Wan, Dmytro Korenkevych, Zheqing Zhu,
- Abstract要約: 強化学習(RL)では、継続タスクはエージェントと環境の相互作用が進行中であり、エピソードに分解できないタスクを指す。
本研究では,Mujoco環境とAtari環境をベースとした一連のタスクテストベッドを用いて,よく知られた深層RLアルゴリズムについて検討する。
また,時間差に基づくRLアルゴリズムを改良する手法の有効性についても検討した。
- 参考スコア(独自算出の注目度): 5.741277679263804
- License:
- Abstract: In reinforcement learning (RL), continuing tasks refer to tasks where the agent-environment interaction is ongoing and can not be broken down into episodes. These tasks are suitable when environment resets are unavailable, agent-controlled, or predefined but where all rewards-including those beyond resets-are critical. These scenarios frequently occur in real-world applications and can not be modeled by episodic tasks. While modern deep RL algorithms have been extensively studied and well understood in episodic tasks, their behavior in continuing tasks remains underexplored. To address this gap, we provide an empirical study of several well-known deep RL algorithms using a suite of continuing task testbeds based on Mujoco and Atari environments, highlighting several key insights concerning continuing tasks. Using these testbeds, we also investigate the effectiveness of a method for improving temporal-difference-based RL algorithms in continuing tasks by centering rewards, as introduced by Naik et al. (2024). While their work primarily focused on this method in conjunction with Q-learning, our results extend their findings by demonstrating that this method is effective across a broader range of algorithms, scales to larger tasks, and outperforms two other reward-centering approaches.
- Abstract(参考訳): 強化学習(RL)では、継続タスクはエージェントと環境の相互作用が進行中であり、エピソードに分解できないタスクを指す。
これらのタスクは、環境リセットが利用できない、エージェント制御されていない、あるいは事前に定義された場合に適していますが、リセット以外のものを含むすべての報酬が重要になります。
これらのシナリオは現実世界のアプリケーションで頻繁に起こり、エピソディックなタスクではモデル化できない。
現代のディープRLアルゴリズムは、エピソジックなタスクで広く研究され、よく理解されているが、継続するタスクにおけるそれらの振る舞いは未解明のままである。
このギャップに対処するため,Mujoco と Atari の環境をベースとした一連のタスクテストベッドを用いて,いくつかのよく知られた深層RLアルゴリズムの実証的研究を行った。
また,これらのテストベッドを用いて,Naik et al (2024) が導入した報酬の集中化によるタスク継続における時間差に基づくRLアルゴリズムの改善手法の有効性についても検討した。
彼らの研究は主にQ-ラーニングと共にこの手法に焦点を当てているが、この手法が幅広いアルゴリズムにまたがって有効であること、より大きなタスクにスケールすること、および他の2つの報酬中心アプローチよりも優れていることを示し、その結果を拡張した。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Is Value Functions Estimation with Classification Plug-and-play for Offline Reinforcement Learning? [1.9116784879310031]
深層強化学習(RL)では、値関数はディープニューラルネットワークを用いて近似され、平均2乗誤差回帰目標を用いて訓練される。
近年の研究では、クロスエントロピー分類の目的を活かした代替手法が提案されている。
我々の研究は、オフラインのRLセットアップにおけるそのような置換の影響を実証的に調査することを目指している。
論文 参考訳(メタデータ) (2024-06-10T14:25:11Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Off-Policy Reinforcement Learning with Delayed Rewards [16.914712720033524]
多くの現実世界のタスクでは、エージェントがアクションを実行した直後に即時報酬がアクセスできない、あるいは定義できない。
本稿では、まず、遅延報酬を伴う環境を正式に定義し、このような環境の非マルコフ的な性質から生じる課題について議論する。
理論収束保証を伴う遅延報酬を処理できる新しいQ-関数の定式化を備えた一般の政治外RLフレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-22T15:19:48Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。
まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。
これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文 参考訳(メタデータ) (2020-12-25T02:35:27Z) - Learning Context-aware Task Reasoning for Efficient Meta-reinforcement
Learning [29.125234093368732]
本稿では,新しいタスクの学習において,人間レベルの効率を実現するためのメタRL戦略を提案する。
本稿では,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解する。
提案アルゴリズムは,タスク推論の探索を効果的に行い,トレーニングとテストの双方においてサンプル効率を向上し,メタオーバーフィッティング問題を緩和する。
論文 参考訳(メタデータ) (2020-03-03T07:38:53Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。