論文の概要: Weak Human Preference Supervision For Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.12904v2
- Date: Sat, 26 Dec 2020 02:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 01:10:23.364244
- Title: Weak Human Preference Supervision For Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための弱い人間選好監督
- Authors: Zehong Cao, KaiChiu Wong, Chin-Teng Lin
- Abstract要約: 人間の好みによる現在の報酬学習は、報酬関数にアクセスせずに複雑な強化学習(RL)タスクを解決するために使用できる。
そこで我々は,人間の嗜好スケーリングモデルを開発した,弱い人間の嗜好監視フレームワークを提案する。
提案手法では,環境との相互作用の 0.01% 未満の人的フィードバックしか必要としない。
- 参考スコア(独自算出の注目度): 48.03929962249475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current reward learning from human preferences could be used to resolve
complex reinforcement learning (RL) tasks without access to a reward function
by defining a single fixed preference between pairs of trajectory segments.
However, the judgement of preferences between trajectories is not dynamic and
still requires human input over thousands of iterations. In this study, we
proposed a weak human preference supervision framework, for which we developed
a human preference scaling model that naturally reflects the human perception
of the degree of weak choices between trajectories and established a
human-demonstration estimator via supervised learning to generate the predicted
preferences for reducing the number of human inputs. The proposed weak human
preference supervision framework can effectively solve complex RL tasks and
achieve higher cumulative rewards in simulated robot locomotion -- MuJoCo games
-- relative to the single fixed human preferences. Furthermore, our established
human-demonstration estimator requires human feedback only for less than 0.01\%
of the agent's interactions with the environment and significantly reduces the
cost of human inputs by up to 30\% compared with the existing approaches. To
present the flexibility of our approach, we released a video
(https://youtu.be/jQPe1OILT0M) showing comparisons of the behaviours of agents
trained on different types of human input. We believe that our naturally
inspired human preferences with weakly supervised learning are beneficial for
precise reward learning and can be applied to state-of-the-art RL systems, such
as human-autonomy teaming systems.
- Abstract(参考訳): 人間の好みからの現在の報酬学習は、一対の軌道セグメント間の単一の固定された嗜好を定義することで、報酬関数にアクセスせずに複雑な強化学習(RL)タスクを解決するために使用できる。
しかし、軌道間の選好の判断は動的ではなく、何千回も繰り返して人間の入力を必要とする。
本研究では,人選好の選好度を自然に反映した人選好スケーリングモデルを構築し,教師付き学習による人選好推定装置を構築し,人選好数を減らすための予測選好を生成するという,弱い人選好監視フレームワークを提案する。
提案されている弱い人間の嗜好監視フレームワークは、複雑なRLタスクを効果的に解決し、シミュレーションされたロボットの移動 -- MuJoCoゲーム -- における累積的な報酬を達成することができる。
さらに,本手法では,環境との相互作用の0.01 %未満の人的フィードバックしか必要とせず,既存の手法と比較して,人的入力のコストを最大30 %削減する。
このアプローチの柔軟性を示すために、私たちは、異なるタイプの人間の入力に基づいて訓練されたエージェントの振る舞いの比較を示すビデオ(https://youtu.be/jQPe1OILT0M)をリリースした。
我々は、弱い教師付き学習による自然にインスピレーションを受けた人間の嗜好が、正確な報酬学習に有用であり、人間と自律的なチームリングシステムのような最先端のRLシステムに適用できると考えている。
関連論文リスト
- Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Aligning Language Models with Human Preferences via a Bayesian Approach [11.984246334043673]
人間中心の自然言語生成(NLG)システムを推し進めるためには、NLGモデルと人間の嗜好の整合性を確保することが不可欠である。
本稿では,人選好における不一致の分布を選好モデルのトレーニングとして考慮するために,ベイズ的枠組みを用いた新しいアプローチを提案する。
自動評価と人的評価の両方において,従来のSOTAモデルよりずっと上回っている。
論文 参考訳(メタデータ) (2023-10-09T15:15:05Z) - Humans are not Boltzmann Distributions: Challenges and Opportunities for
Modelling Human Feedback and Interaction in Reinforcement Learning [13.64577704565643]
これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するために、より現実的な人間モデルを開発する必要がある、と我々は主張する。
本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。
論文 参考訳(メタデータ) (2022-06-27T13:58:51Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Skill Preferences: Learning to Extract and Execute Robotic Skills from
Human Feedback [82.96694147237113]
Skill Preferencesは、人間の好みよりもモデルを学習し、オフラインデータから人間に沿ったスキルを抽出するアルゴリズムである。
SkiPは複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットで実現できることを示す。
論文 参考訳(メタデータ) (2021-08-11T18:04:08Z) - Human-guided Robot Behavior Learning: A GAN-assisted Preference-based
Reinforcement Learning Approach [2.9764834057085716]
本稿では,新しいGAN支援人間嗜好に基づく強化学習手法を提案する。
GAN(Generative Adversarial Network)を使用して、人間の嗜好を積極的に学習し、選好を割り当てる際の人間の役割を置き換える。
本手法は, 性能犠牲を伴わずに, 約99.8%の人的時間を短縮することができる。
論文 参考訳(メタデータ) (2020-10-15T01:44:06Z) - Deep reinforcement learning from human preferences [19.871618959160692]
我々は、軌道セグメントのペア間の人間の選好(非専門家)の観点から定義された目標を探索する。
提案手法は,報酬関数を使わずに複雑なRLタスクを効果的に解くことができることを示す。
これにより、人間の監視コストを十分に低減し、最先端のRLシステムに実用的に適用することができる。
論文 参考訳(メタデータ) (2017-06-12T17:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。