Fugu-MT 論文翻訳(概要): Parameter-Efficient Tuning Helps Language Model Alignment

論文の概要: Parameter-Efficient Tuning Helps Language Model Alignment

arxiv url: http://arxiv.org/abs/2310.00819v1
Date: Sun, 1 Oct 2023 23:27:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 01:36:54.136009
Title: Parameter-Efficient Tuning Helps Language Model Alignment
Title（参考訳）: パラメータ効率のチューニングは、言語モデルのアライメントに役立つ
Authors: Tianci Xue, Ziqi Wang, Heng Ji
Abstract要約: これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。コントロール可能な生成は、データフォーマットに関して、より柔軟性を提供します。パラメータ効率調整(MEET)を併用したアライメントMEntでは,制御トークンの品質が向上する。
参考スコア（独自算出の注目度）: 57.27390187540737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Aligning large language models (LLMs) with human preferences is essential for safe and useful LLMs. Previous works mainly adopt reinforcement learning (RLHF) and direct preference optimization (DPO) with human feedback for alignment. Nevertheless, they have certain drawbacks. One such limitation is that they can only align models with one preference at the training time (e.g., they cannot learn to generate concise responses when the preference data prefers detailed responses), or have certain constraints for the data format (e.g., DPO only supports pairwise preference data). To this end, prior works incorporate controllable generations for alignment to make language models learn multiple preferences and provide outputs with different preferences during inference if asked. Controllable generation also offers more flexibility with regard to data format (e.g., it supports pointwise preference data). Specifically, it uses different control tokens for different preferences during training and inference, making LLMs behave differently when required. Current controllable generation methods either use a special token or hand-crafted prompts as control tokens, and optimize them together with LLMs. As control tokens are typically much lighter than LLMs, this optimization strategy may not effectively optimize control tokens. To this end, we first use parameter-efficient tuning (e.g., prompting tuning and low-rank adaptation) to optimize control tokens and then fine-tune models for controllable generations, similar to prior works. Our approach, alignMEnt with parameter-Efficient Tuning (MEET), improves the quality of control tokens, thus improving controllable generation quality consistently by an apparent margin on two well-recognized datasets compared with prior works.
Abstract（参考訳）: 大規模言語モデル(LLM)を人間の好みで調整することは、安全で有用なLLMにとって不可欠である。これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。しかし、いくつかの欠点がある。そのような制限の一つは、トレーニング時にのみモデルに1つの好みを合わせることができ(例えば、嗜好データが詳細なレスポンスを優先する場合に簡潔な応答を生成することを学べない)、データフォーマットに一定の制約がある(例えば、DPOはペアの選好データのみをサポートする)ことである。この目的のために、事前の作業には制御可能な世代が組み込まれており、言語モデルに複数の選好を学習させ、必要に応じて異なる選好を持つ出力を提供する。制御可能な生成はまた、データフォーマット(例えば、ポイントワイズデータをサポートする)に関してより柔軟性を提供する。具体的には、トレーニングと推論の間に異なる好みのために異なるコントロールトークンを使用する。現在の制御可能な生成方法は、特別なトークンまたは手作りのプロンプトを制御トークンとして使用し、LLMと一緒に最適化する。制御トークンは一般的にLLMよりも軽量であるため、この最適化戦略は制御トークンを効果的に最適化することができない。この目的のために、我々はまずパラメータ効率の良いチューニング(例えば、チューニングと低ランク適応)を使用して制御トークンを最適化し、その後制御可能な世代のための微調整モデルを使う。提案手法はパラメータ効率チューニング (meet) と整合し, 制御トークンの品質を向上し, 2つのよく認識されたデータセットにおいて, 制御可能な生成品質を両立させる。

関連論文リスト

Not All Preferences are What You Need for Post-Training: Selective Alignment Strategy for Preference Optimization [0.0]
大規模言語モデル(LLM)のトレーニング後のアライメントは、すべてのトークンがモデルのパフォーマンスに等しく寄与するわけではないため、重要な課題である。本稿では,プライオリティペア内の高インパクトトークンを優先するアライメント戦略を提案する。これらの情報的トークンに焦点をあてることで,計算オーバーヘッドを低減し,アライメントの忠実度を高める。
論文参考訳（メタデータ） (2025-07-10T12:58:45Z)
Multi-Preference Lambda-weighted Listwise DPO for Small-Scale Model Alignment [5.276657230880984]
大規模言語モデル(LLM)は、幅広い言語タスクに対して強力な一般化を示すが、しばしば人間の好みに反する出力を生成する。直接最適化選好(DPO)は、二項選好対に対する分類タスクとしてアライメントを扱い、プロセスを単純化する。我々は、より詳細な人間のフィードバックからモデルを学習できるマルチパラメータLambda-weighted Listwise DPOを提案する。本手法は, 実世界の展開に適した効率, 制御可能, きめ細かな適応を実現しつつ, 標準DPOのアライメント性能を常に向上させる。
論文参考訳（メタデータ） (2025-06-24T16:47:17Z)
Configurable Preference Tuning with Rubric-Guided Synthetic Data [0.6526824510982799]
本稿では,言語モデルに明示的,人間解釈可能な指示に基づく行動調整機能を持たせるための新しい枠組みを提案する。トレーニングコード、生成されたデータセット、微調整されたモデルなど、いくつかの実験的な成果物がhttps://github.com/vicgalle/configurable-preference-tuningでリリースされている。
論文参考訳（メタデータ） (2025-06-13T12:17:38Z)
DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.24431208419858]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。 DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文参考訳（メタデータ） (2024-11-20T02:03:16Z)
MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。 LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文参考訳（メタデータ） (2024-10-18T05:31:13Z)
Orchestrating LLMs with Different Personalizations [28.344891363780576]
本稿では,大規模言語モデル(LLM)と個人の嗜好を一致させる新しいアプローチを提案する。有用性、簡潔性、ユーモアなど、複数の次元に沿って記述された嗜好を踏まえると、ゴールは、この仕様に最もよく準拠する再訓練をせずにLLMを作成することである。 1つの特定の選好次元で訓練された専門的なLSMから始め、各トーケンレベルで出力をマージするブラックボックス法を提案する。
論文参考訳（メタデータ） (2024-07-04T22:55:02Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文参考訳（メタデータ） (2024-04-18T08:49:38Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。また,LLMのアライメントを大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards [32.799198549439716]
大規模言語モデル(LLM)の整合化のためのDPA(Directional Preference Alignment)フレームワークを導入する。スカラー・リワードのRLHFとは異なり、DPAは多目的報酬モデルを導入し、多様な好みプロファイルを表現している。本手法は有用性と冗長性の間のトレードオフを算術的に簡単に制御する。
論文参考訳（メタデータ） (2024-02-28T18:58:25Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。