論文の概要: RLTHF: Targeted Human Feedback for LLM Alignment
- arxiv url: http://arxiv.org/abs/2502.13417v2
- Date: Fri, 21 Feb 2025 02:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 12:50:18.186780
- Title: RLTHF: Targeted Human Feedback for LLM Alignment
- Title(参考訳): RLTHF:LLMアライメントのための人間のフィードバックを目標に
- Authors: Yifei Xu, Tusher Chakraborty, Emre Kıcıman, Bibek Aryal, Eduardo Rodrigues, Srinagesh Sharma, Roberto Estevao, Maria Angels de Luis Balaguer, Jessica Wolk, Rafael Padilha, Leonardo Nunes, Shobana Balakrishnan, Songwu Lu, Ranveer Chandra,
- Abstract要約: ユーザの好みに合わせて微調整された大きな言語モデルは、高品質なヒューマンアノテーションのコストが高いため、難しい。
LLMをベースとした初期アライメントと選択的人間のアノテーションを組み合わせた人間-AIハイブリッドフレームワークであるRLTHFを提案する。
RLTHFは,ヒトのアノテーション努力の6~7%で全人類のアノテーションレベルのアライメントに達する。
- 参考スコア(独自算出の注目度): 6.9866569384937325
- License:
- Abstract: Fine-tuning large language models (LLMs) to align with user preferences is challenging due to the high cost of quality human annotations in Reinforcement Learning from Human Feedback (RLHF) and the generalizability limitations of AI Feedback. To address these challenges, we propose RLTHF, a human-AI hybrid framework that combines LLM-based initial alignment with selective human annotations to achieve full-human annotation alignment with minimal effort. RLTHF identifies hard-to-annotate samples mislabeled by LLMs using a reward model's reward distribution and iteratively enhances alignment by integrating strategic human corrections while leveraging LLM's correctly labeled samples. Evaluations on HH-RLHF and TL;DR datasets show that RLTHF reaches full-human annotation-level alignment with only 6-7% of the human annotation effort. Furthermore, models trained on RLTHF's curated datasets for downstream tasks outperform those trained on fully human-annotated datasets, underscoring the effectiveness of RLTHF's strategic data curation.
- Abstract(参考訳): ユーザ好みに合わせて微調整された大規模言語モデル(LLM)は、Reinforcement Learning from Human Feedback(RLHF)における高品質なヒューマンアノテーションのコストが高く、AI Feedbackの汎用性制限のため、難しい。
これらの課題に対処するために、LLMベースの初期アライメントと選択的人間のアノテーションを組み合わせた人間-AIハイブリッドフレームワークであるRLTHFを提案し、最小限の努力でフルヒューマンアノテーションアライメントを実現する。
RLTHFは、報酬モデルの報酬分布を用いて、LLMが誤記したハード・トゥ・アノテート標本を特定し、LSMの正しくラベル付けされたサンプルを活用しながら、戦略的修正を統合することでアライメントを反復的に強化する。
HH-RLHFとTL;DRデータセットの評価は、RLTHFが人間のアノテーション努力の6-7%でフルヒューマンのアノテーションレベルアライメントに達することを示している。
さらに、下流タスクのためのRLTHFのキュレートされたデータセットでトレーニングされたモデルは、完全な人間アノテーション付きデータセットでトレーニングされたデータセットよりも優れており、RLTHFの戦略的データキュレーションの有効性が強調されている。
関連論文リスト
- Simplify RLHF as Reward-Weighted SFT: A Variational Method [34.222095430239555]
RLHF(Reinforcement Learning from Human Feedback)は、Large Language Models(LLM)と人的価値の整合に不可欠である。
変分推論の観点からRLHFの単純化を提案する。
我々は、アライメント目標を報酬駆動型微調整形式に変換し、トレーニングの安定性と効果を顕著に向上させる。
論文 参考訳(メタデータ) (2025-02-16T07:22:00Z) - Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - Reward Modeling with Weak Supervision for Language Models [12.599789817157188]
この研究は、RLHFデータセットを拡張し、報酬モデルのパフォーマンスを向上させる戦略として、弱い監視を導入する。
RLHFデータセットを解析して不正確な応答を識別することにより、簡単なラベル付け関数を作成し、ラベルモデルを弱いラベル付きデータに校正した。
評価の結果,報酬モデルの性能を向上することで,弱い監視がより小さなデータセットに大きく貢献するが,その効果はより大きくラベル付けされたデータセットで減少することがわかった。
論文 参考訳(メタデータ) (2024-10-28T09:37:58Z) - Reward Difference Optimization For Sample Reweighting In Offline RLHF [18.62836654699957]
現在のオフラインRLHFは、レスポンス間の"通常の関係"のみをキャプチャし、他よりもどのくらい好まれるかという決定的な側面を見渡します。
本稿では,リワード差分最適化(Reward Difference Optimization, RDO)と呼ばれるシンプルな解を提案する。
HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、本手法の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2024-08-18T07:04:16Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - CLHA: A Simple yet Effective Contrastive Learning Framework for Human Alignment [42.71324708567498]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を整合させる重要な手法である。
我々は,LLMと人間の嗜好を直接整合させる,単純かつ効果的な人間適応のためのコントラスト学習フレームワーク(CLHA)を提案する。
論文 参考訳(メタデータ) (2024-03-25T11:37:15Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Fine-tuning Language Models with Generative Adversarial Reward Modelling [30.424363135421917]
RLHF(Reinforcement Learning with Human Feedback)は、大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。
我々は、RLHFとSFTに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という別のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:06:06Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。