論文の概要: Information Directed Reward Learning for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.12466v1
- Date: Wed, 24 Feb 2021 18:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:27:41.013376
- Title: Information Directed Reward Learning for Reinforcement Learning
- Title(参考訳): 強化学習のための情報指向リワード学習
- Authors: David Lindner and Matteo Turchetta and Sebastian Tschiatschek and
Kamil Ciosek and Andreas Krause
- Abstract要約: 我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
- 参考スコア(独自算出の注目度): 64.33774245655401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For many reinforcement learning (RL) applications, specifying a reward is
difficult. In this paper, we consider an RL setting where the agent can obtain
information about the reward only by querying an expert that can, for example,
evaluate individual states or provide binary preferences over trajectories.
From such expensive feedback, we aim to learn a model of the reward function
that allows standard RL algorithms to achieve high expected return with as few
expert queries as possible. For this purpose, we propose Information Directed
Reward Learning (IDRL), which uses a Bayesian model of the reward function and
selects queries that maximize the information gain about the difference in
return between potentially optimal policies. In contrast to prior active reward
learning methods designed for specific types of queries, IDRL naturally
accommodates different query types. Moreover, by shifting the focus from
reducing the reward approximation error to improving the policy induced by the
reward model, it achieves similar or better performance with significantly
fewer queries. We support our findings with extensive evaluations in multiple
environments and with different types of queries.
- Abstract(参考訳): 多くの強化学習(RL)アプリケーションでは、報酬の指定は困難です。
本稿では,例えば,個々の状態を評価したり,トラジェクタよりもバイナリを優先したりできる専門家に問い合わせることで,エージェントが報酬に関する情報を得ることができるrl設定を考える。
このような高額なフィードバックから、標準的なRLアルゴリズムが可能な限り少数の専門家クエリで高い期待のリターンを達成することができるような報酬関数のモデルを学ぶことを目指している。
そこで本研究では, 報酬関数のベイズモデルを用いた情報指向報酬学習(IDRL)を提案し, 潜在的に最適な政策間のリターン差についての情報利得を最大化するクエリを選定する。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
さらに、報酬近似誤差の低減から報酬モデルによるポリシーの改善に焦点を移すことで、クエリーを大幅に少なくして、同様のパフォーマンスまたはより良いパフォーマンスを実現します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
関連論文リスト
- RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Reinforcement Replaces Supervision: Query focused Summarization using
Deep Reinforcement Learning [43.123290672073814]
クエリに基づいて文書から要約を生成するシステムを扱う。
Reinforcement Learning (RL) が自然言語生成のための Supervised Learning (SL) の一般化を提供するという知見に触発されて,本課題に RL ベースのアプローチを用いる。
我々は、ROUGE、BLEU、Semantic similarityといった様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発する。
論文 参考訳(メタデータ) (2023-11-29T10:38:16Z) - Unsupervised Behavior Extraction via Random Intent Priors [29.765683436971027]
UBERは、さまざまな報酬を通じてオフラインの報酬なしデータセットから有用な振る舞いを抽出するための教師なしのアプローチである。
ランダムニューラルネットワークから生成された報酬は、多様で有用な振る舞いを抽出するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-10-28T12:03:34Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Query-Policy Misalignment in Preference-Based Reinforcement Learning [21.212703100030478]
報酬モデル全体の品質を改善するために選択された一見有意義なクエリは、実際にはRLエージェントの関心と一致しない可能性があることを示す。
この問題は、ほぼ政治上のクエリと、特別に設計されたハイブリッド体験リプレイを通じて、効果的に対処できることが示される。
提案手法は,人間のフィードバックとRLサンプルの効率の両面で有意な向上を実現している。
論文 参考訳(メタデータ) (2023-05-27T07:55:17Z) - Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは 予測分布を用いて 最大限の確率で 書き起こしを求める
最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。
細調整されたASRモデルの性能を向上させる復号法を提案する。
論文 参考訳(メタデータ) (2022-12-27T06:42:26Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。