論文の概要: Parameter-Efficient Tuning Helps Language Model Alignment
- arxiv url: http://arxiv.org/abs/2310.00819v1
- Date: Sun, 1 Oct 2023 23:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 01:36:54.136009
- Title: Parameter-Efficient Tuning Helps Language Model Alignment
- Title(参考訳): パラメータ効率のチューニングは、言語モデルのアライメントに役立つ
- Authors: Tianci Xue, Ziqi Wang, Heng Ji
- Abstract要約: これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。
コントロール可能な生成は、データフォーマットに関して、より柔軟性を提供します。
パラメータ効率調整(MEET)を併用したアライメントMEntでは,制御トークンの品質が向上する。
- 参考スコア(独自算出の注目度): 57.27390187540737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) with human preferences is essential for
safe and useful LLMs. Previous works mainly adopt reinforcement learning (RLHF)
and direct preference optimization (DPO) with human feedback for alignment.
Nevertheless, they have certain drawbacks. One such limitation is that they can
only align models with one preference at the training time (e.g., they cannot
learn to generate concise responses when the preference data prefers detailed
responses), or have certain constraints for the data format (e.g., DPO only
supports pairwise preference data). To this end, prior works incorporate
controllable generations for alignment to make language models learn multiple
preferences and provide outputs with different preferences during inference if
asked. Controllable generation also offers more flexibility with regard to data
format (e.g., it supports pointwise preference data). Specifically, it uses
different control tokens for different preferences during training and
inference, making LLMs behave differently when required. Current controllable
generation methods either use a special token or hand-crafted prompts as
control tokens, and optimize them together with LLMs. As control tokens are
typically much lighter than LLMs, this optimization strategy may not
effectively optimize control tokens. To this end, we first use
parameter-efficient tuning (e.g., prompting tuning and low-rank adaptation) to
optimize control tokens and then fine-tune models for controllable generations,
similar to prior works. Our approach, alignMEnt with parameter-Efficient Tuning
(MEET), improves the quality of control tokens, thus improving controllable
generation quality consistently by an apparent margin on two well-recognized
datasets compared with prior works.
- Abstract(参考訳): 大規模言語モデル(LLM)を人間の好みで調整することは、安全で有用なLLMにとって不可欠である。
これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。
しかし、いくつかの欠点がある。
そのような制限の一つは、トレーニング時にのみモデルに1つの好みを合わせることができ(例えば、嗜好データが詳細なレスポンスを優先する場合に簡潔な応答を生成することを学べない)、データフォーマットに一定の制約がある(例えば、DPOはペアの選好データのみをサポートする)ことである。
この目的のために、事前の作業には制御可能な世代が組み込まれており、言語モデルに複数の選好を学習させ、必要に応じて異なる選好を持つ出力を提供する。
制御可能な生成はまた、データフォーマット(例えば、ポイントワイズデータをサポートする)に関してより柔軟性を提供する。
具体的には、トレーニングと推論の間に異なる好みのために異なるコントロールトークンを使用する。
現在の制御可能な生成方法は、特別なトークンまたは手作りのプロンプトを制御トークンとして使用し、LLMと一緒に最適化する。
制御トークンは一般的にLLMよりも軽量であるため、この最適化戦略は制御トークンを効果的に最適化することができない。
この目的のために、我々はまずパラメータ効率の良いチューニング(例えば、チューニングと低ランク適応)を使用して制御トークンを最適化し、その後制御可能な世代のための微調整モデルを使う。
提案手法はパラメータ効率チューニング (meet) と整合し, 制御トークンの品質を向上し, 2つのよく認識されたデータセットにおいて, 制御可能な生成品質を両立させる。
関連論文リスト
- DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.4979142807426]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。
DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文 参考訳(メタデータ) (2024-11-20T02:03:16Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Orchestrating LLMs with Different Personalizations [28.344891363780576]
本稿では,大規模言語モデル(LLM)と個人の嗜好を一致させる新しいアプローチを提案する。
有用性、簡潔性、ユーモアなど、複数の次元に沿って記述された嗜好を踏まえると、ゴールは、この仕様に最もよく準拠する再訓練をせずにLLMを作成することである。
1つの特定の選好次元で訓練された専門的なLSMから始め、各トーケンレベルで出力をマージするブラックボックス法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:55:02Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Arithmetic Control of LLMs for Diverse User Preferences: Directional
Preference Alignment with Multi-Objective Rewards [32.799198549439716]
大規模言語モデル(LLM)の整合化のためのDPA(Directional Preference Alignment)フレームワークを導入する。
スカラー・リワードのRLHFとは異なり、DPAは多目的報酬モデルを導入し、多様な好みプロファイルを表現している。
本手法は有用性と冗長性の間のトレードオフを算術的に簡単に制御する。
論文 参考訳(メタデータ) (2024-02-28T18:58:25Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。