論文の概要: Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction
- arxiv url: http://arxiv.org/abs/2402.02416v2
- Date: Tue, 6 Feb 2024 18:02:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 11:10:05.382590
- Title: Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction
- Title(参考訳): Aligner: 弱補正による効率的なアライメントの実現
- Authors: Jiaming Ji, Boyuan Chen, Hantao Lou, Donghai Hong, Borong Zhang,
Xuehai Pan, Juntao Dai, Yaodong Yang
- Abstract要約: 大規模言語モデル(LLM)の整合化への取り組みは、主にRLHF法(Reinforcement Learning from Human Feedback)を通じて行われる。
ここでは、アライメントとアンアライメントされた回答の間の補正残差を学習することにより、RLHFプロセス全体をバイパスする新しい効率的なアライメントパラダイムであるAlignerを紹介する。
- 参考スコア(独自算出の注目度): 10.883619887477613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efforts to align Large Language Models (LLMs) are mainly conducted via
Reinforcement Learning from Human Feedback (RLHF) methods. However, RLHF
encounters major challenges including training reward models, actor-critic
engineering, and importantly, it requires access to LLM parameters. Here we
introduce Aligner, a new efficient alignment paradigm that bypasses the whole
RLHF process by learning the correctional residuals between the aligned and the
unaligned answers. Our Aligner offers several key advantages. Firstly, it is an
autoregressive seq2seq model that is trained on the query-answer-correction
dataset via supervised learning; this offers a parameter-efficient alignment
solution with minimal resources. Secondly, the Aligner facilitates
weak-to-strong generalization; finetuning large pretrained models by Aligner's
supervisory signals demonstrates strong performance boost. Thirdly, Aligner
functions as a model-agnostic plug-and-play module, allowing for its direct
application on different open-source and API-based models. Remarkably,
Aligner-7B improves 11 different LLMs by 21.9% in helpfulness and 23.8% in
harmlessness on average (GPT-4 by 17.5% and 26.9%). When finetuning (strong)
Llama2-70B with (weak) Aligner-13B's supervision, we can improve Llama2 by 8.2%
in helpfulness and 61.6% in harmlessness. See our dataset and code at
https://aligner2024.github.io
- Abstract(参考訳): 大規模言語モデル(LLM)の整合化への取り組みは、主にRLHF法(Reinforcement Learning from Human Feedback)を通じて行われる。
しかし、RLHFはトレーニング報酬モデル、アクター-批評家工学といった大きな課題に直面しており、重要なことにLLMパラメータへのアクセスが必要である。
ここでは、アライメントとアンアライメントされた回答の間の補正残差を学習することにより、RLHFプロセス全体をバイパスする新しい効率的なアライメントパラダイムであるAlignerを紹介する。
私たちのAlignerには、いくつかの大きな利点があります。
まず、教師付き学習を通じてクエリ・アンサー・コレクションデータセットに基づいてトレーニングされる自動回帰Seq2seqモデルであり、最小限のリソースでパラメータ効率の高いアライメントソリューションを提供する。
第2に、Alignerは弱いから強い一般化を促進し、Alignerの監督信号による大規模な事前訓練モデルの微調整は、強い性能向上を示す。
第3に、Alignerはモデルに依存しないプラグイン・アンド・プレイモジュールとして機能する。
注目すべきことに、Aligner-7Bは11種類のLDMを21.9%、平均で23.8%改善している(GPT-4は17.5%、26.9%)。
Llama2-70Bを(弱い)アリグナー13Bの監督で微調整すると、Llama2は8.2%、無害は61.6%改善できる。
データセットとコードはhttps://aligner2024.github.ioを参照。
関連論文リスト
- Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
本稿では、2人のプレーヤー間の非対称ゲームとしてアライメントをキャストする一般オープンエンドなRLHFフレームワークを提案する。
Asymmetric Self-Play (eva) によるアライメントの進化(Evolving Alignment)というこのフレームワークは、既存のRLHFアルゴリズムを拡張性のあるアライメントに利用できるシンプルで効率的なアプローチをもたらす。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - Weak-to-Strong Preference Optimization: Stealing Reward from Weak Aligned Model [28.569089876442682]
この研究は弱強一般化に触発され、弱いモデルによって生成されるラベルに強いLMを微調整することで、弱いスーパーバイザーを一貫して上回る。
Weak-to-Strong Preference Optimization (WSPO)を提案し、弱いモデルのアライメント前後の分布差を学習することにより、強力なモデルアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-24T11:06:29Z) - Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。
本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T04:41:08Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness [94.03511733306296]
我々は,MLLMを超GPT-4V信頼性のための完全なオープンソースパラダイムに整合させるフレームワークであるRLAIF-Vを紹介する。
RLAIF-Vは、高品質なフィードバックデータとオンラインフィードバック学習アルゴリズムを含む、2つの観点から、オープンソースフィードバックを最大限活用する。
実験により、RLAIF-Vは、他のタスクのパフォーマンスを犠牲にすることなく、モデルの信頼性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences [21.5605000515622]
本稿では,大言語モデル(LLM)の学習後,オラクルからの嗜好フィードバックを用いて,モデル自体を反復的に改善する手法について検討する。
提案手法は,理論的な一般化と対照的な学習の単純さと安定性を,一般の選好の最適化からマージする,証明可能かつ効率的なアルゴリズムである。
実験で得られた 7B パラメータ Orca-2.5 モデルは,AlpacaE 2.0 上で 33% の GPT-4-Turbo に対して,初期化モデルに対して 26% (7% から 33%) の絶対ゲインを達成した。
論文 参考訳(メタデータ) (2024-04-04T17:56:41Z) - AlpaGasus: Training A Better Alpaca with Fewer Data [93.6949102689243]
低品質なデータを自動的に識別しフィルタリングする、シンプルで効果的なデータ選択戦略を提案する。
52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。
AlpaGasusは、複数のテストセットと制御された人間の評価において、オリジナルのAlpacaを著しく上回っている。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。