論文の概要: Linear Alignment: A Closed-form Solution for Aligning Human Preferences
without Tuning and Feedback
- arxiv url: http://arxiv.org/abs/2401.11458v1
- Date: Sun, 21 Jan 2024 10:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:20:07.032904
- Title: Linear Alignment: A Closed-form Solution for Aligning Human Preferences
without Tuning and Feedback
- Title(参考訳): リニアアライメント: 調整やフィードバックを伴わない人間の選好調整のためのクローズドフォームソリューション
- Authors: Songyang Gao, Qiming Ge, Wei Shen, Shihan Dou, Junjie Ye, Xiao Wang,
Rui Zheng, Yicheng Zou, Zhi Chen, Hang Yan, Qi Zhang, Dahua Lin
- Abstract要約: リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 72.21755067005049
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The success of AI assistants based on Language Models (LLMs) hinges on
Reinforcement Learning from Human Feedback (RLHF) to comprehend and align with
user intentions. However, traditional alignment algorithms, such as PPO, are
hampered by complex annotation and training requirements. This reliance limits
the applicability of RLHF and hinders the development of professional
assistants tailored to diverse human preferences. In this work, we introduce
\textit{Linear Alignment}, a novel algorithm that aligns language models with
human preferences in one single inference step, eliminating the reliance on
data annotation and model training. Linear alignment incorporates a new
parameterization for policy optimization under divergence constraints, which
enables the extraction of optimal policy in a closed-form manner and
facilitates the direct estimation of the aligned response. Extensive
experiments on both general and personalized preference datasets demonstrate
that linear alignment significantly enhances the performance and efficiency of
LLM alignment across diverse scenarios. Our code and dataset will be published
on \url{https://github.com/Wizardcoast/Linear_Alignment.git}.
- Abstract(参考訳): 言語モデル(LLM)に基づくAIアシスタントの成功は、人間のフィードバックからの強化学習(RLHF)に基づいて、ユーザの意図を理解し、一致させる。
しかしながら、PPOのような従来のアライメントアルゴリズムは、複雑なアノテーションとトレーニング要件によって妨げられている。
この依存はRLHFの適用性を制限し、多様な人間の好みに合わせて調整されたプロフェッショナルアシスタントの開発を妨げる。
本研究では,1つの推論ステップで言語モデルと人間の嗜好を一致させる新しいアルゴリズムである「textit{Linear Alignment}」を導入し,データアノテーションやモデルトレーニングへの依存を排除した。
線形アライメントは、分岐制約の下でのポリシー最適化のための新しいパラメータ化を取り入れ、最適ポリシーをクローズド形式で抽出し、アライメントされた応答の直接推定を容易にする。
汎用的およびパーソナライズされた嗜好データセットの広範な実験により、線形アライメントは様々なシナリオにおけるLLMアライメントの性能と効率を大幅に向上させることが示された。
コードとデータセットは \url{https://github.com/Wizardcoast/Linear_Alignment.git} で公開されます。
関連論文リスト
- Don't Forget Your Reward Values: Language Model Alignment via
Value-based Calibration [26.467379188463028]
そこで本稿では,textbfValue を用いた textbfCalitextbfBration (VCB) 手法を提案する。
実験の結果,VCBはAIアシスタントや要約データセット上の既存のアライメント手法を上回ることがわかった。
論文 参考訳(メタデータ) (2024-02-25T08:45:10Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Aligning Large Language Models with Counterfactual DPO [1.8130068086063336]
本稿では,人的介入に頼らずにモデルスタイルを整列させる反事実的プロンプトの利用について検討する。
本研究では,この手法が望ましい行動を効果的に抑制し,望ましくない行動を緩和し,不適切な指示を無視するようモデルに促すことを実証する。
論文 参考訳(メタデータ) (2024-01-17T19:43:43Z) - ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z) - Nash Learning from Human Feedback [80.86423717860141]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [113.01510055986694]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z) - Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文 参考訳(メタデータ) (2023-08-23T10:41:07Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
その結果,提案したtextsfPARL が RL におけるアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。