Fugu-MT 論文翻訳(概要): Rating-based Reinforcement Learning

論文の概要: Rating-based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2307.16348v2
Date: Mon, 29 Jan 2024 15:00:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 22:20:09.921165
Title: Rating-based Reinforcement Learning
Title（参考訳）: レーティングに基づく強化学習
Authors: Devin White, Mingkang Wu, Ellen Novoseller, Vernon J. Lawhern, Nicholas Waytowich, Yongcan Cao
Abstract要約: 本稿では,人間格付けを用いた新しい評価に基づく強化学習手法を開発し,強化学習における人的指導を得る。我々は,新しい評価に基づく強化学習手法の有効性とメリットを評価するために,いくつかの実験を行った。
参考スコア（独自算出の注目度）: 1.2855244508998243
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper develops a novel rating-based reinforcement learning approach that uses human ratings to obtain human guidance in reinforcement learning. Different from the existing preference-based and ranking-based reinforcement learning paradigms, based on human relative preferences over sample pairs, the proposed rating-based reinforcement learning approach is based on human evaluation of individual trajectories without relative comparisons between sample pairs. The rating-based reinforcement learning approach builds on a new prediction model for human ratings and a novel multi-class loss function. We conduct several experimental studies based on synthetic ratings and real human ratings to evaluate the effectiveness and benefits of the new rating-based reinforcement learning approach.
Abstract（参考訳）: 本稿では,人間格付けを用いた新しい評価に基づく強化学習手法を開発し,強化学習における人的指導を得る。既存の選好ベースおよびランキングベースの強化学習パラダイムとは異なり,評価に基づく強化学習アプローチは,サンプルペア間の相対的な比較を伴わずに,個々の軌跡の人間による評価に基づく。評価に基づく強化学習アプローチは、人間格付けの新しい予測モデルと、新しい多クラス損失関数に基づいている。我々は,新しい評価に基づく強化学習手法の有効性とメリットを評価するために,合成評価と実人評価に基づく実験を行った。

関連論文リスト

Multi-Task Reward Learning from Human Ratings [1.6133809033337525]
複数のタスクを共同で検討し、人間の意思決定を模倣する新しい強化学習法を提案する。報酬のない環境における人間の評価を活用し、報酬関数を推論し、分類モデルと回帰モデルの両方の貢献のバランスをとる学習可能な重みを導入します。その結果,提案手法は既存のレーティングに基づくRL手法よりも常に優れており,場合によっては従来のRL手法よりも優れていた。
論文参考訳（メタデータ） (2025-06-10T19:00:19Z)
Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T16:39:41Z)
RbRL2.0: Integrated Reward and Policy Learning for Rating-based Reinforcement Learning [1.7095639309883044]
強化学習(Reinforcement Learning, RL)は、関連する累積リターン/リワードに基づいて様々な経験からポリシーを学習する。本稿では,効率的な政策学習のために収集した経験を識別することで,人間の意思決定過程を模倣する新しいRL手法を提案する。
論文参考訳（メタデータ） (2025-01-13T17:19:34Z)
HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。 HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文参考訳（メタデータ） (2024-12-20T03:26:47Z)
Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。 ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文参考訳（メタデータ） (2023-10-16T16:27:06Z)
Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文参考訳（メタデータ） (2023-10-03T09:46:02Z)
Learning and Evaluating Human Preferences for Conversational Head Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。 PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文参考訳（メタデータ） (2023-07-20T07:04:16Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Argumentative Reward Learning: Reasoning About Human Preferences [15.193365548247982]
そこで我々は,嗜好に基づく議論と,人間のフィードバックから学習を補強するための既存のアプローチを組み合わせた,新たなニューロシンボリック・フレームワークである議論的報酬学習を定義した。提案手法は,人間の嗜好を一般化し,ユーザの負担を軽減し,報酬モデルの堅牢性を高めることにより,先行作業を改善する。
論文参考訳（メタデータ） (2022-09-28T11:36:07Z)
Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文参考訳（メタデータ） (2022-02-09T08:38:50Z)
Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-15T11:32:13Z)
Unsupervised Domain Adaptive Person Re-Identification via Human Learning Imitation [67.52229938775294]
近年、研究者は、異なる人物の再識別データセット間のドメインギャップを減らすために、教師学生フレームワークを彼らの手法に活用することを提案している。近年の教員中心の枠組みに基づく手法に着想を得て,異なる側面から人間の学習過程を模倣するためのさらなる探究を提案する。
論文参考訳（メタデータ） (2021-11-28T01:14:29Z)
Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文参考訳（メタデータ） (2021-06-24T15:58:01Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。