論文の概要: InferNet for Delayed Reinforcement Tasks: Addressing the Temporal Credit
Assignment Problem
- arxiv url: http://arxiv.org/abs/2105.00568v1
- Date: Sun, 2 May 2021 22:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 00:12:14.709176
- Title: InferNet for Delayed Reinforcement Tasks: Addressing the Temporal Credit
Assignment Problem
- Title(参考訳): 遅延強化タスクのためのInferNet:時間的クレジット割り当て問題に対処する
- Authors: Markel Sanz Ausin, Hamoon Azizsoltani, Song Ju, Yeo Jin Kim, Min Chi
- Abstract要約: InferNetというニューラルネットワークに基づくアルゴリズムに時間的信用割当問題(CAP)を委譲することを提案する。
InferNetは、遅延した報酬から即時報酬を推測することを明示的に学習する。
その結果,InferNetの有効性はノイズ報酬関数に対して頑健であることがわかった。
- 参考スコア(独自算出の注目度): 10.68860418157574
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The temporal Credit Assignment Problem (CAP) is a well-known and challenging
task in AI. While Reinforcement Learning (RL), especially Deep RL, works well
when immediate rewards are available, it can fail when only delayed rewards are
available or when the reward function is noisy. In this work, we propose
delegating the CAP to a Neural Network-based algorithm named InferNet that
explicitly learns to infer the immediate rewards from the delayed rewards. The
effectiveness of InferNet was evaluated on two online RL tasks: a simple
GridWorld and 40 Atari games; and two offline RL tasks: GridWorld and a
real-life Sepsis treatment task. For all tasks, the effectiveness of using the
InferNet inferred rewards is compared against the immediate and the delayed
rewards with two settings: with noisy rewards and without noise. Overall, our
results show that the effectiveness of InferNet is robust against noisy reward
functions and is an effective add-on mechanism for solving temporal CAP in a
wide range of RL tasks, from classic RL simulation environments to a real-world
RL problem and for both online and offline learning.
- Abstract(参考訳): 一時的信用割り当て問題(CAP)は、AIにおけるよく知られた課題である。
強化学習(Reinforcement Learning, RL)、特にDeep RLは、即時報酬が利用可能であればうまく機能するが、遅延報酬のみが利用可能である場合や、報酬関数がうるさい場合は失敗することがある。
そこで本研究では,遅延報酬から即時報酬を推測するために明示的に学習するニューラルネットワークに基づくアルゴリズムinfernetにcapを委譲することを提案する。
InferNetの有効性は、2つのオンラインRLタスク(GridWorldと40のAtariゲーム)と2つのオフラインRLタスク(GridWorldと実生活のSepsis処理タスク)で評価された。
すべてのタスクにおいて、InferNetの推論された報酬の有効性は、2つの設定で即時と遅延した報酬と比較される。
以上の結果から,InferNetの有効性は,従来のRLシミュレーション環境から実世界のRL問題,オンラインおよびオフライン学習まで,幅広いRLタスクにおいて,時間的CAPを解くための効果的なアドオン機構であることがわかった。
関連論文リスト
- The Perfect Blend: Redefining RLHF with Mixture of Judges [68.58426626501883]
人間のフィードバックによる強化学習(RLHF)が,大規模言語モデル(LLM)の指導的アプローチとなっている。
MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。
CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2024-09-30T15:06:53Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Handling Sparse Rewards in Reinforcement Learning Using Model Predictive
Control [9.118706387430883]
強化学習(RL)は近年,様々な分野で大きな成功を収めている。
しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。
本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
論文 参考訳(メタデータ) (2022-10-04T11:06:38Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Off-Policy Reinforcement Learning with Delayed Rewards [16.914712720033524]
多くの現実世界のタスクでは、エージェントがアクションを実行した直後に即時報酬がアクセスできない、あるいは定義できない。
本稿では、まず、遅延報酬を伴う環境を正式に定義し、このような環境の非マルコフ的な性質から生じる課題について議論する。
理論収束保証を伴う遅延報酬を処理できる新しいQ-関数の定式化を備えた一般の政治外RLフレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-22T15:19:48Z) - Smart Scheduling based on Deep Reinforcement Learning for Cellular
Networks [18.04856086228028]
深部強化学習(DRL)に基づくスマートスケジューリング手法を提案する。
実装フレンドリーな設計、すなわちエージェントのためのスケーラブルなニューラルネットワーク設計と仮想環境トレーニングフレームワークを提供する。
本研究では, DRLベースのスマートスケジューリングが従来のスケジューリング方式を上回り, 実用システムにも適用できることを示した。
論文 参考訳(メタデータ) (2021-03-22T02:09:16Z) - Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。
近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-23T23:55:06Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。