論文の概要: Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A
Case-Study in E-Commerce Opinion Summarization
- arxiv url: http://arxiv.org/abs/2402.15473v1
- Date: Fri, 23 Feb 2024 18:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 13:40:43.489935
- Title: Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A
Case-Study in E-Commerce Opinion Summarization
- Title(参考訳): RLHFにおける効率的なリワードモデリングのためのドメイン知識の活用:Eコマースオピニオン要約におけるケーススタディ
- Authors: Swaroop Nath, Tejpalsingh Siledar, Sankara Sri Raghava Ravindra Muddu,
Rupasai Rangaraju, Harshad Khadilkar, Pushpak Bhattacharyya, Suman Banerjee,
Amey Patil, Sudhanshu Shekhar Singh, Muthusamy Chelliah, Nikesh Garera
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF) は、人間の価値観や目標に対する言語モデル(LM)の運営において支配的な戦略となっている。
本稿では,ドメイン知識を$varphi$に注入する新しい手法を提案する。
我々の貢献には、新しいリワードモデリング技術、オピニオン要約のための新しいデータセット(PromptOpinSumm)、人間の好みデータセット(OpinPref)が含まれる。
- 参考スコア(独自算出の注目度): 32.5709529987173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has become a dominating
strategy in steering Language Models (LMs) towards human values/goals. The key
to the strategy is employing a reward model ({$\varphi$}) which can reflect a
latent reward model with humans. While this strategy has proven to be
effective, the training methodology requires a lot of human preference
annotation (usually of the order of tens of thousands) to train {$\varphi$}.
Such large-scale preference annotations can be achievable if the reward model
can be ubiquitously used. However, human values/goals are subjective and depend
on the nature of the task. This poses a challenge in collecting diverse
preferences for downstream applications. To address this, we propose a novel
methodology to infuse domain knowledge into {$\varphi$}, which reduces the size
of preference annotation required. We validate our approach in E-Commerce
Opinion Summarization, with a significant reduction in dataset size (just $940$
samples) while advancing the state-of-the-art. Our contributions include a
novel Reward Modelling technique, a new dataset (PromptOpinSumm) for Opinion
Summarization, and a human preference dataset (OpinPref). The proposed
methodology opens avenues for efficient RLHF, making it more adaptable to
diverse applications with varying human values. We release the artifacts for
usage under MIT License.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、人間の価値観や目標に対する言語モデル(LM)の運営において支配的な戦略となっている。
この戦略の鍵は、人間の潜在報酬モデルを反映した報酬モデル({$\varphi$})を採用することである。
この戦略は効果的であることが証明されているが、訓練方法は{$\varphi$} を訓練するには多くの人間の好みのアノテーション(通常数万のオーダー)を必要とする。
このような大規模な選好アノテーションは,報奨モデルがユビキタスに利用できれば実現可能だ。
しかし、人間の価値観/ゴールは主観的であり、タスクの性質に依存する。
これは下流アプリケーションに対する多様な好みを集める上で課題となる。
そこで本研究では,ドメイン知識を$\varphi$}に注入する手法を提案する。
E-Commerce Opinion Summarizationにおける我々のアプローチを検証すると同時に、データセットサイズ(わずか940ドルのサンプル)を大幅に削減し、最先端の最先端を推し進めています。
我々の貢献には、新しいリワードモデリング技術、オピニオン要約のための新しいデータセット(PromptOpinSumm)、人間の好みデータセット(OpinPref)が含まれる。
提案手法は、効率的なRLHFの道を開き、異なる人的価値を持つ多様なアプリケーションに適応できるようにする。
私たちはMITライセンス下で使用するアーティファクトをリリースします。
関連論文リスト
- MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Dual Active Learning for Reinforcement Learning from Human Feedback [13.732678966515781]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを合わせるために広く応用されている。
人間のフィードバックは高価で時間を要するため、人間の教師がラベルを付けるための高品質な会話データを集めることが不可欠である。
本稿では、オフライン強化学習(RL)を用いてアライメント問題を定式化する。
論文 参考訳(メタデータ) (2024-10-03T14:09:58Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Reinforcement Learning from Human Feedback with Active Queries [59.855433734053555]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発された問合せ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。