論文の概要: Off-Policy Evaluation for Human Feedback
- arxiv url: http://arxiv.org/abs/2310.07123v1
- Date: Wed, 11 Oct 2023 01:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 00:58:25.857285
- Title: Off-Policy Evaluation for Human Feedback
- Title(参考訳): 人のフィードバックのオフポリティ評価
- Authors: Qitong Gao, Juncheng Dong, Vahid Tarokh, Min Chi, Miroslav Pajic
- Abstract要約: オフライン学習と強化学習(RL)のギャップを埋めるためには、オフ政治評価(OPE)が重要である
既存のOPE手法は、人間のフィードバック(HF)信号を推定するには不十分である。
本稿では,HF 信号の正確な評価のために,既存の OPE 手法を復元する HF 用 OPE (OPEHF) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 39.94060426022204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy evaluation (OPE) is important for closing the gap between offline
training and evaluation of reinforcement learning (RL), by estimating
performance and/or rank of target (evaluation) policies using offline
trajectories only. It can improve the safety and efficiency of data collection
and policy testing procedures in situations where online deployments are
expensive, such as healthcare. However, existing OPE methods fall short in
estimating human feedback (HF) signals, as HF may be conditioned over multiple
underlying factors and is only sparsely available; as opposed to the
agent-defined environmental rewards (used in policy optimization), which are
usually determined over parametric functions or distributions. Consequently,
the nature of HF signals makes extrapolating accurate OPE estimations to be
challenging. To resolve this, we introduce an OPE for HF (OPEHF) framework that
revives existing OPE methods in order to accurately evaluate the HF signals.
Specifically, we develop an immediate human reward (IHR) reconstruction
approach, regularized by environmental knowledge distilled in a latent space
that captures the underlying dynamics of state transitions as well as issuing
HF signals. Our approach has been tested over two real-world experiments,
adaptive in-vivo neurostimulation and intelligent tutoring, as well as in a
simulation environment (visual Q&A). Results show that our approach
significantly improves the performance toward estimating HF signals accurately,
compared to directly applying (variants of) existing OPE methods.
- Abstract(参考訳): オフライン軌道のみを用いた目標(評価)政策の評価と評価を行うことにより、オフライン学習と強化学習(RL)のギャップを埋めるためには、オフ政治評価(OPE)が重要である。
医療などのオンラインデプロイメントが高価である状況において、データ収集とポリシーテスト手順の安全性と効率を改善することができる。
しかし、既存のOPE法は、HFが複数の基本的な要因に対して条件付けられているため、人間のフィードバック(HF)信号を推定するのに不足しており、通常はパラメトリック関数や分布上で決定されるエージェント定義の環境報酬(ポリシー最適化で使用される)とは対照的に、わずかにしか利用できない。
したがって、HF信号の性質により、正確なOPE推定が困難になる。
この問題を解決するために,既存のOPE手法を復元し,HF信号の正確な評価を行うHF(OPEHF)フレームワークのOPEを導入する。
具体的には, 潜在空間に蒸留した環境知識によって規則化され, 状態遷移の基盤となるダイナミクスを捉え, hf信号の発行を行う, 即時人的報酬(ihr)再構成手法を開発した。
本手法は,適応的生体内神経刺激と知的指導の2つの実世界実験とシミュレーション環境(視覚q&a)を用いて実験を行った。
提案手法は,既存のOPE法を直接適用した場合と比較して,HF信号の正確な推定性能を著しく向上することを示す。
関連論文リスト
- Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment [33.5805074836187]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるのに非常に効果的であることが証明されている。
この制限は、RLHFが特定のトークンを強化または抑制すべきかどうかについての認識の欠如に起因している。
本稿では,様々なタスクに頑健に適用可能な適応的メッセージワイドRLHF'法を提案する。
論文 参考訳(メタデータ) (2024-10-23T16:16:15Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization [56.54271464134885]
ポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムの検討
クエリの複雑さが低いPO-RLHFの性能バウンダリを提供する。
鍵となる新規性は、軌跡レベルの楕円ポテンシャル分析である。
論文 参考訳(メタデータ) (2024-02-15T22:11:18Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning [11.084321518414226]
我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。
我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
論文 参考訳(メタデータ) (2023-07-21T20:54:52Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。