論文の概要: Rating-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.16348v2
- Date: Mon, 29 Jan 2024 15:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 22:20:09.921165
- Title: Rating-based Reinforcement Learning
- Title(参考訳): レーティングに基づく強化学習
- Authors: Devin White, Mingkang Wu, Ellen Novoseller, Vernon J. Lawhern,
Nicholas Waytowich, Yongcan Cao
- Abstract要約: 本稿では,人間格付けを用いた新しい評価に基づく強化学習手法を開発し,強化学習における人的指導を得る。
我々は,新しい評価に基づく強化学習手法の有効性とメリットを評価するために,いくつかの実験を行った。
- 参考スコア(独自算出の注目度): 1.2855244508998243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops a novel rating-based reinforcement learning approach that
uses human ratings to obtain human guidance in reinforcement learning.
Different from the existing preference-based and ranking-based reinforcement
learning paradigms, based on human relative preferences over sample pairs, the
proposed rating-based reinforcement learning approach is based on human
evaluation of individual trajectories without relative comparisons between
sample pairs. The rating-based reinforcement learning approach builds on a new
prediction model for human ratings and a novel multi-class loss function. We
conduct several experimental studies based on synthetic ratings and real human
ratings to evaluate the effectiveness and benefits of the new rating-based
reinforcement learning approach.
- Abstract(参考訳): 本稿では,人間格付けを用いた新しい評価に基づく強化学習手法を開発し,強化学習における人的指導を得る。
既存の選好ベースおよびランキングベースの強化学習パラダイムとは異なり,評価に基づく強化学習アプローチは,サンプルペア間の相対的な比較を伴わずに,個々の軌跡の人間による評価に基づく。
評価に基づく強化学習アプローチは、人間格付けの新しい予測モデルと、新しい多クラス損失関数に基づいている。
我々は,新しい評価に基づく強化学習手法の有効性とメリットを評価するために,合成評価と実人評価に基づく実験を行った。
関連論文リスト
- RbRL2.0: Integrated Reward and Policy Learning for Rating-based Reinforcement Learning [1.7095639309883044]
強化学習(Reinforcement Learning, RL)は、関連する累積リターン/リワードに基づいて様々な経験からポリシーを学習する。
本稿では,効率的な政策学習のために収集した経験を識別することで,人間の意思決定過程を模倣する新しいRL手法を提案する。
論文 参考訳(メタデータ) (2025-01-13T17:19:34Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。
我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文 参考訳(メタデータ) (2023-10-03T09:46:02Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Argumentative Reward Learning: Reasoning About Human Preferences [15.193365548247982]
そこで我々は,嗜好に基づく議論と,人間のフィードバックから学習を補強するための既存のアプローチを組み合わせた,新たなニューロシンボリック・フレームワークである議論的報酬学習を定義した。
提案手法は,人間の嗜好を一般化し,ユーザの負担を軽減し,報酬モデルの堅牢性を高めることにより,先行作業を改善する。
論文 参考訳(メタデータ) (2022-09-28T11:36:07Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。