論文の概要: Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction
- arxiv url: http://arxiv.org/abs/2402.02416v2
- Date: Tue, 6 Feb 2024 18:02:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 11:10:05.382590
- Title: Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction
- Title(参考訳): Aligner: 弱補正による効率的なアライメントの実現
- Authors: Jiaming Ji, Boyuan Chen, Hantao Lou, Donghai Hong, Borong Zhang,
Xuehai Pan, Juntao Dai, Yaodong Yang
- Abstract要約: 大規模言語モデル(LLM)の整合化への取り組みは、主にRLHF法(Reinforcement Learning from Human Feedback)を通じて行われる。
ここでは、アライメントとアンアライメントされた回答の間の補正残差を学習することにより、RLHFプロセス全体をバイパスする新しい効率的なアライメントパラダイムであるAlignerを紹介する。
- 参考スコア(独自算出の注目度): 10.883619887477613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efforts to align Large Language Models (LLMs) are mainly conducted via
Reinforcement Learning from Human Feedback (RLHF) methods. However, RLHF
encounters major challenges including training reward models, actor-critic
engineering, and importantly, it requires access to LLM parameters. Here we
introduce Aligner, a new efficient alignment paradigm that bypasses the whole
RLHF process by learning the correctional residuals between the aligned and the
unaligned answers. Our Aligner offers several key advantages. Firstly, it is an
autoregressive seq2seq model that is trained on the query-answer-correction
dataset via supervised learning; this offers a parameter-efficient alignment
solution with minimal resources. Secondly, the Aligner facilitates
weak-to-strong generalization; finetuning large pretrained models by Aligner's
supervisory signals demonstrates strong performance boost. Thirdly, Aligner
functions as a model-agnostic plug-and-play module, allowing for its direct
application on different open-source and API-based models. Remarkably,
Aligner-7B improves 11 different LLMs by 21.9% in helpfulness and 23.8% in
harmlessness on average (GPT-4 by 17.5% and 26.9%). When finetuning (strong)
Llama2-70B with (weak) Aligner-13B's supervision, we can improve Llama2 by 8.2%
in helpfulness and 61.6% in harmlessness. See our dataset and code at
https://aligner2024.github.io
- Abstract(参考訳): 大規模言語モデル(LLM)の整合化への取り組みは、主にRLHF法(Reinforcement Learning from Human Feedback)を通じて行われる。
しかし、RLHFはトレーニング報酬モデル、アクター-批評家工学といった大きな課題に直面しており、重要なことにLLMパラメータへのアクセスが必要である。
ここでは、アライメントとアンアライメントされた回答の間の補正残差を学習することにより、RLHFプロセス全体をバイパスする新しい効率的なアライメントパラダイムであるAlignerを紹介する。
私たちのAlignerには、いくつかの大きな利点があります。
まず、教師付き学習を通じてクエリ・アンサー・コレクションデータセットに基づいてトレーニングされる自動回帰Seq2seqモデルであり、最小限のリソースでパラメータ効率の高いアライメントソリューションを提供する。
第2に、Alignerは弱いから強い一般化を促進し、Alignerの監督信号による大規模な事前訓練モデルの微調整は、強い性能向上を示す。
第3に、Alignerはモデルに依存しないプラグイン・アンド・プレイモジュールとして機能する。
注目すべきことに、Aligner-7Bは11種類のLDMを21.9%、平均で23.8%改善している(GPT-4は17.5%、26.9%)。
Llama2-70Bを(弱い)アリグナー13Bの監督で微調整すると、Llama2は8.2%、無害は61.6%改善できる。
データセットとコードはhttps://aligner2024.github.ioを参照。
関連論文リスト
- PERL: Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の好みを結びつける強力な手法であることが証明されている。
本稿では,Huらによって導入されたLoRA(Lo-Rank Adaptation)のパラメータ効率向上手法を用いて,基礎となるモデルを学習するRLHFについて検討する。
PERLは従来のRLHF設定と同等に動作し、高速かつ少ないメモリでトレーニングを行う。
論文 参考訳(メタデータ) (2024-03-15T21:43:46Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [139.19973370560533]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Reformatted Alignment [27.79684742862816]
データ品質を改善するための現在の手法は、労働集約的であるか、幻覚によって引き起こされる事実上の誤りを招きやすいかのいずれかである。
本稿では,ReAlignという簡易かつ効果的な手法を導入し,命令データの応答を予め確立された基準と照合された証拠に適合する形式に再構成する。
実験的に、ReAlignはLLMの一般的なアライメント能力、数学的推論、事実性、可読性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-02-19T15:21:58Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Aligning Large Multimodal Models with Factually Augmented RLHF [176.54751941088819]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「ハロシン化」をもたらす。
テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。
本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。
提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文 参考訳(メタデータ) (2023-09-25T20:59:33Z) - RAIN: Your Language Models Can Align Themselves without Finetuning [25.703729145091483]
大型言語モデル(LLM)は人間の好みと矛盾することが多い。
本研究では,不整合 LLM が自己ブーイングによって直接人間の嗜好に整合した応答を生成可能であることを示す。
本稿では,自己回帰推論(Rewindable Auto-Regressive Inference)という新しい推論手法を導入する。
論文 参考訳(メタデータ) (2023-09-13T17:59:09Z) - AlpaGasus: Training A Better Alpaca with Fewer Data [93.6949102689243]
低品質なデータを自動的に識別しフィルタリングする、シンプルで効果的なデータ選択戦略を提案する。
52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。
AlpaGasusは、複数のテストセットと制御された人間の評価において、オリジナルのAlpacaを著しく上回っている。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - Learning to Optimize for Reinforcement Learning [79.03249959636776]
ゼロから強化学習を行うエージェントを学習することは可能であることを示す。
おもちゃのタスクでしか訓練されないが、我々の学習はブラックスの複雑なタスクに一般化することができる。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。