論文の概要: Unsupervised Behavior Extraction via Random Intent Priors
- arxiv url: http://arxiv.org/abs/2310.18687v1
- Date: Sat, 28 Oct 2023 12:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 17:06:21.278249
- Title: Unsupervised Behavior Extraction via Random Intent Priors
- Title(参考訳): ランダム意図優先による教師なし行動抽出
- Authors: Hao Hu, Yiqin Yang, Jianing Ye, Ziqing Mai, Chongjie Zhang
- Abstract要約: UBERは、さまざまな報酬を通じてオフラインの報酬なしデータセットから有用な振る舞いを抽出するための教師なしのアプローチである。
ランダムニューラルネットワークから生成された報酬は、多様で有用な振る舞いを抽出するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 29.765683436971027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward-free data is abundant and contains rich prior knowledge of human
behaviors, but it is not well exploited by offline reinforcement learning (RL)
algorithms. In this paper, we propose UBER, an unsupervised approach to extract
useful behaviors from offline reward-free datasets via diversified rewards.
UBER assigns different pseudo-rewards sampled from a given prior distribution
to different agents to extract a diverse set of behaviors, and reuse them as
candidate policies to facilitate the learning of new tasks. Perhaps
surprisingly, we show that rewards generated from random neural networks are
sufficient to extract diverse and useful behaviors, some even close to expert
ones. We provide both empirical and theoretical evidence to justify the use of
random priors for the reward function. Experiments on multiple benchmarks
showcase UBER's ability to learn effective and diverse behavior sets that
enhance sample efficiency for online RL, outperforming existing baselines. By
reducing reliance on human supervision, UBER broadens the applicability of RL
to real-world scenarios with abundant reward-free data.
- Abstract(参考訳): 報酬のないデータは豊富であり、人間の行動に関する豊富な事前知識を含んでいるが、オフライン強化学習(rl)アルゴリズムではうまく活用されていない。
本稿では,オフラインの報酬のないデータセットから,多様な報酬を通じて有用な行動を抽出するための教師なしアプローチであるUBERを提案する。
UBERは、与えられた事前分布からサンプリングされた異なる擬似回帰を異なるエージェントに割り当て、様々な振る舞いの集合を抽出し、新しいタスクの学習を容易にするために候補ポリシーとして再利用する。
おそらく驚くべきことに、ランダムなニューラルネットワークから生成される報酬は、エキスパートに近い、多様で有用な行動を引き出すのに十分である。
我々は、報酬関数に対するランダムな事前利用を正当化するための実証的証拠と理論的証拠の両方を提供する。
複数のベンチマークの実験では、UBERがオンラインRLのサンプル効率を高め、既存のベースラインを上回る、効果的で多様な振る舞いセットを学習する能力を示している。
人間の監督への依存を減らすことで、UBERは十分な報酬のないデータを持つ現実世界のシナリオに適用性を広げる。
関連論文リスト
- Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - Kernel Density Bayesian Inverse Reinforcement Learning [5.699034783029326]
逆強化学習(IRL)法は、エージェントの報酬関数を専門家の行動の実証を用いて推定する。
この研究は、ベイズIRLを様々な領域に適用できる原理的で理論的に基礎付けられた枠組みを導入している。
論文 参考訳(メタデータ) (2023-03-13T03:00:03Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - On Reward-Free Reinforcement Learning with Linear Function Approximation [144.4210285338698]
Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
論文 参考訳(メタデータ) (2020-06-19T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。