論文の概要: Reinforcement Learning with Trajectory Feedback
- arxiv url: http://arxiv.org/abs/2008.06036v2
- Date: Thu, 4 Mar 2021 20:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 22:36:51.417235
- Title: Reinforcement Learning with Trajectory Feedback
- Title(参考訳): 軌道フィードバックによる強化学習
- Authors: Yonathan Efroni, Nadav Merlis, Shie Mannor
- Abstract要約: 本研究では、この仮定を緩和する第一歩を踏み出し、より弱い形のフィードバックを必要とする。
あらゆる行動の後に得られる報酬を観察する代わりに、エージェントが観察する全軌道の質、すなわち、この軌道上で得られるすべての報酬の総和を表すスコアのみを受け取ると仮定する。
我々は、未知の遷移モデルと未知の遷移モデルの両方に対して、未知の報酬の最小二乗推定に基づいて強化学習アルゴリズムをこの設定に拡張し、それらの後悔を分析してこれらのアルゴリズムの性能について検討する。
- 参考スコア(独自算出の注目度): 76.94405309609552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The standard feedback model of reinforcement learning requires revealing the
reward of every visited state-action pair. However, in practice, it is often
the case that such frequent feedback is not available. In this work, we take a
first step towards relaxing this assumption and require a weaker form of
feedback, which we refer to as \emph{trajectory feedback}. Instead of observing
the reward obtained after every action, we assume we only receive a score that
represents the quality of the whole trajectory observed by the agent, namely,
the sum of all rewards obtained over this trajectory. We extend reinforcement
learning algorithms to this setting, based on least-squares estimation of the
unknown reward, for both the known and unknown transition model cases, and
study the performance of these algorithms by analyzing their regret. For cases
where the transition model is unknown, we offer a hybrid optimistic-Thompson
Sampling approach that results in a tractable algorithm.
- Abstract(参考訳): 強化学習の標準的なフィードバックモデルは、訪問した状態-アクションペアの報酬を明らかにする必要がある。
しかし、実際には、そのような頻繁なフィードバックが利用できないことが多い。
この研究では、この仮定を緩和する第一歩を踏み出し、より弱い形式のフィードバックを必要とし、これを 'emph{trajectory feedback} と呼ぶ。
各アクションの後に得られる報酬を観察する代わりに、エージェントが観察する軌道全体の質を表すスコア、すなわち、この軌道上で得られるすべての報酬の合計だけを受け取ると仮定する。
我々は,未知報酬の最小二乗推定に基づく強化学習アルゴリズムを,既知のトランジションモデルと未知のトランジションモデルの両方のケースに対してこの設定に拡張し,その後悔を分析してアルゴリズムの性能について検討する。
遷移モデルが未知の場合には、トラクタブルアルゴリズムをもたらすハイブリッドな楽観的なトンプソンサンプリング手法を提供する。
関連論文リスト
- Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Emergent representations in networks trained with the Forward-Forward algorithm [0.6597195879147556]
我々は,フォワード・フォワードアルゴリズムが,高い空間性を示すカテゴリ固有のアンサンブルに編成可能であることを示す。
その結果、フォワード・フォワードが提案する学習手順は、大脳皮質における学習のモデル化において、バックプロパゲーションよりも優れている可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-26T14:39:46Z) - Reward Imputation with Sketching for Contextual Batched Bandits [48.80803376405073]
コンテキストバッチバンドイット(Contextual batched bandit、CBB)は、各エピソードの最後に環境から報酬のバッチを観測する設定である。
CBBの既存のアプローチは、実行されていないアクションの報酬を無視し、フィードバック情報の未利用につながることが多い。
本研究では,未観測の報酬をスケッチを用いて完遂するSketched Policy Updating with Imputed Rewards (SPUIR)を提案する。
論文 参考訳(メタデータ) (2022-10-13T04:26:06Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Learning from an Exploring Demonstrator: Optimal Reward Estimation for
Bandits [36.37578212532926]
マルチアームバンディットインスタンスの報酬を推定する"逆バンディット"問題を導入する。
逆強化学習の関連問題に対する既存のアプローチは、最適なポリシーの実行を前提としている。
提案手法は,高信頼度アルゴリズムのクラス内でのデモンストレーションのための簡易かつ効率的な報酬推定手法を開発する。
論文 参考訳(メタデータ) (2021-06-28T17:37:49Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - A Contraction Approach to Model-based Reinforcement Learning [11.701145942745274]
本研究では, 累積報酬の誤差を縮尺法を用いて解析する。
分岐ロールアウトは、このエラーを減らすことができることを証明します。
本稿では,GAN型学習は,識別器が十分に訓練されている場合に,行動クローンよりも有利であることを示す。
論文 参考訳(メタデータ) (2020-09-18T02:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。