論文の概要: Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A
Case-Study in E-Commerce Opinion Summarization
- arxiv url: http://arxiv.org/abs/2402.15473v1
- Date: Fri, 23 Feb 2024 18:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 13:40:43.489935
- Title: Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A
Case-Study in E-Commerce Opinion Summarization
- Title(参考訳): RLHFにおける効率的なリワードモデリングのためのドメイン知識の活用:Eコマースオピニオン要約におけるケーススタディ
- Authors: Swaroop Nath, Tejpalsingh Siledar, Sankara Sri Raghava Ravindra Muddu,
Rupasai Rangaraju, Harshad Khadilkar, Pushpak Bhattacharyya, Suman Banerjee,
Amey Patil, Sudhanshu Shekhar Singh, Muthusamy Chelliah, Nikesh Garera
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF) は、人間の価値観や目標に対する言語モデル(LM)の運営において支配的な戦略となっている。
本稿では,ドメイン知識を$varphi$に注入する新しい手法を提案する。
我々の貢献には、新しいリワードモデリング技術、オピニオン要約のための新しいデータセット(PromptOpinSumm)、人間の好みデータセット(OpinPref)が含まれる。
- 参考スコア(独自算出の注目度): 32.5709529987173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has become a dominating
strategy in steering Language Models (LMs) towards human values/goals. The key
to the strategy is employing a reward model ({$\varphi$}) which can reflect a
latent reward model with humans. While this strategy has proven to be
effective, the training methodology requires a lot of human preference
annotation (usually of the order of tens of thousands) to train {$\varphi$}.
Such large-scale preference annotations can be achievable if the reward model
can be ubiquitously used. However, human values/goals are subjective and depend
on the nature of the task. This poses a challenge in collecting diverse
preferences for downstream applications. To address this, we propose a novel
methodology to infuse domain knowledge into {$\varphi$}, which reduces the size
of preference annotation required. We validate our approach in E-Commerce
Opinion Summarization, with a significant reduction in dataset size (just $940$
samples) while advancing the state-of-the-art. Our contributions include a
novel Reward Modelling technique, a new dataset (PromptOpinSumm) for Opinion
Summarization, and a human preference dataset (OpinPref). The proposed
methodology opens avenues for efficient RLHF, making it more adaptable to
diverse applications with varying human values. We release the artifacts for
usage under MIT License.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、人間の価値観や目標に対する言語モデル(LM)の運営において支配的な戦略となっている。
この戦略の鍵は、人間の潜在報酬モデルを反映した報酬モデル({$\varphi$})を採用することである。
この戦略は効果的であることが証明されているが、訓練方法は{$\varphi$} を訓練するには多くの人間の好みのアノテーション(通常数万のオーダー)を必要とする。
このような大規模な選好アノテーションは,報奨モデルがユビキタスに利用できれば実現可能だ。
しかし、人間の価値観/ゴールは主観的であり、タスクの性質に依存する。
これは下流アプリケーションに対する多様な好みを集める上で課題となる。
そこで本研究では,ドメイン知識を$\varphi$}に注入する手法を提案する。
E-Commerce Opinion Summarizationにおける我々のアプローチを検証すると同時に、データセットサイズ(わずか940ドルのサンプル)を大幅に削減し、最先端の最先端を推し進めています。
我々の貢献には、新しいリワードモデリング技術、オピニオン要約のための新しいデータセット(PromptOpinSumm)、人間の好みデータセット(OpinPref)が含まれる。
提案手法は、効率的なRLHFの道を開き、異なる人的価値を持つ多様なアプリケーションに適応できるようにする。
私たちはMITライセンス下で使用するアーティファクトをリリースします。
関連論文リスト
- Provably Sample Efficient RLHF via Active Preference Optimization [30.339377972710157]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要である。
ランダムにプロンプトを選択して選好データを収集する方法は、報酬の準最適差が$Omega(1)$の政策につながることを示す。
本稿では,小修正を施した$textttAPO$の計算効率のよいバッチバージョンを提案し,実際に性能評価を行う。
論文 参考訳(メタデータ) (2024-02-16T08:19:34Z) - Reinforcement Learning from Human Feedback with Active Queries [67.27150911254155]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発されたクエリ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z) - KTO: Model Alignment as Prospect Theoretic Optimization [72.3561669924904]
Kahneman & Tversky の $textitprospect theory$ は、人間が偏見はあるが明確に定義された方法でランダム変数を知覚することを示している。
人間のフィードバックとLLMを協調させる目的には,これらのバイアスが暗黙的に組み込まれていることを示す。
そこで本稿では,嗜好のログ類似度を最大化する代わりに,世代別利用率を直接最大化するHALOを提案する。
論文 参考訳(メタデータ) (2024-02-02T10:53:36Z) - Improving Reinforcement Learning from Human Feedback with Efficient
Reward Model Ensemble [71.44669705576263]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。
メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-06T23:12:26Z) - Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。
IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。
これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文 参考訳(メタデータ) (2022-12-06T18:21:47Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Linear Speedup in Personalized Collaborative Learning [69.45124829480106]
フェデレート学習におけるパーソナライゼーションは、モデルのバイアスをトレーディングすることで、モデルの精度を向上させることができる。
ユーザの目的の最適化として、パーソナライズされた協調学習問題を定式化する。
分散の低減のためにバイアスを最適にトレードオフできる条件について検討する。
論文 参考訳(メタデータ) (2021-11-10T22:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。