論文の概要: SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to
RLHF
- arxiv url: http://arxiv.org/abs/2310.05344v1
- Date: Mon, 9 Oct 2023 02:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 08:31:48.366737
- Title: SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to
RLHF
- Title(参考訳): SteerLM: RLHFの代替(ユーザステアブル)としての属性条件付きSFT
- Authors: Yi Dong, Zhilin Wang, Makesh Narsimhan Sreedhar, Xianchao Wu, Oleksii
Kuchaiev
- Abstract要約: 提案するSteerLMは,ユーザによる推論時の応答制御を支援する教師付き微調整手法である。
SteerLM条件は、明示的に定義された多次元の属性セットに対応するために応答し、それによって、有用な高品質のレスポンスを生成することができるステアブルAIを増強する。
- 参考スコア(独自算出の注目度): 19.43122743768123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model alignment with human preferences is an essential step in making Large
Language Models (LLMs) helpful and consistent with human values. It typically
consists of supervised fine-tuning (SFT) and reinforcement learning from human
feedback (RLHF) stages. However, RLHF faces inherent limitations stemming from
a complex training setup and its tendency to align the model with implicit
values that end users cannot control at run-time. Moreover, reward models in
RLHF stage commonly rely on single-dimensional feedback as opposed to explicit,
multifaceted signals that indicate attributes such as helpfulness, humor, and
toxicity. To address these limitations, we propose SteerLM, a supervised
fine-tuning method that empowers end-users to control responses during
inference. SteerLM conditions responses to conform to an explicitly defined
multi-dimensional set of attributes, thereby empowering a steerable AI capable
of generating helpful and high-quality responses while maintaining
customizability. Experiments show that SteerLM trained on open source datasets
generates responses that are preferred by human and automatic evaluators to
many state-of-the-art baselines trained with RLHF while being much easier to
train. Try SteerLM at https://huggingface.co/nvidia/SteerLM-llama2-13B
- Abstract(参考訳): 人間の好みに沿ったモデルアライメントは、大きな言語モデル(llm)を人間の価値と調和させる上で不可欠なステップである。
典型的には、教師付き微調整(SFT)と人間フィードバック(RLHF)段階からの強化学習からなる。
しかし、RLHFは複雑なトレーニング設定に起因する固有の制限に直面しており、その傾向は、エンドユーザーが実行時に制御できない暗黙の値とモデルを整合させる傾向がある。
さらに、rlhfステージの報酬モデルは、通常、有用性、ユーモア、毒性などの特性を示す明示的で多面的な信号とは対照的に、単次元のフィードバックに依存する。
このような制約に対処するために,エンドユーザーが推論中に応答を制御するための教師付き微調整手法であるSteerLMを提案する。
SteerLM条件は、明示的に定義された多次元の属性セットに応答するので、カスタマイズ性を維持しながら、有用な高品質なレスポンスを生成できるステアブルAIが強化される。
実験によると、オープンソースのデータセットでトレーニングされたSteerLMは、RLHFでトレーニングされた多くの最先端ベースラインに対して、人間や自動評価者が好む応答を生成する。
try SteerLM at https://huggingface.co/nvidia/SteerLM-llama2-13B
関連論文リスト
- Language Models Learn to Mislead Humans via RLHF [100.95201965748343]
言語モデル(LM)は、特にタスクが複雑である場合に、人間にとって検出が難しいエラーを生成する。
我々はこの現象を標準のRLHFパイプラインで研究し、モデル開発者が意図していないことから「U-SOPHISTRY」と呼ぶ。
我々の研究は、RLHFの重要な障害モードを強調し、人間の調整を支援するためのさらなる研究を求めている。
論文 参考訳(メタデータ) (2024-09-19T14:50:34Z) - RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。
RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。
教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:50:39Z) - ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback [86.87638927637005]
ChatGLMは、大規模言語モデル(LLM)を利用した、無償のAIサービスである。
本稿では,ChatGLM-RLHFパイプラインについて述べる。
論文 参考訳(メタデータ) (2024-04-01T05:39:36Z) - TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning [7.9961739811640244]
大規模言語モデルの開発は、人間のアノテーションに大きく依存することによる課題に直面することが多い。
この作業では、強化学習(Reinforcement Learning)へと方向転換します。
我々はRLを用いて、微調整だけで十分である基礎的な命令データセットを直接生成する。
論文 参考訳(メタデータ) (2024-03-13T16:57:57Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。