Fugu-MT 論文翻訳(概要): Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction

論文の概要: Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction

arxiv url: http://arxiv.org/abs/2402.02416v2
Date: Tue, 6 Feb 2024 18:02:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 11:10:05.382590
Title: Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction
Title（参考訳）: Aligner: 弱補正による効率的なアライメントの実現
Authors: Jiaming Ji, Boyuan Chen, Hantao Lou, Donghai Hong, Borong Zhang, Xuehai Pan, Juntao Dai, Yaodong Yang
Abstract要約: 大規模言語モデル(LLM)の整合化への取り組みは、主にRLHF法(Reinforcement Learning from Human Feedback)を通じて行われる。ここでは、アライメントとアンアライメントされた回答の間の補正残差を学習することにより、RLHFプロセス全体をバイパスする新しい効率的なアライメントパラダイムであるAlignerを紹介する。
参考スコア（独自算出の注目度）: 10.883619887477613
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Efforts to align Large Language Models (LLMs) are mainly conducted via Reinforcement Learning from Human Feedback (RLHF) methods. However, RLHF encounters major challenges including training reward models, actor-critic engineering, and importantly, it requires access to LLM parameters. Here we introduce Aligner, a new efficient alignment paradigm that bypasses the whole RLHF process by learning the correctional residuals between the aligned and the unaligned answers. Our Aligner offers several key advantages. Firstly, it is an autoregressive seq2seq model that is trained on the query-answer-correction dataset via supervised learning; this offers a parameter-efficient alignment solution with minimal resources. Secondly, the Aligner facilitates weak-to-strong generalization; finetuning large pretrained models by Aligner's supervisory signals demonstrates strong performance boost. Thirdly, Aligner functions as a model-agnostic plug-and-play module, allowing for its direct application on different open-source and API-based models. Remarkably, Aligner-7B improves 11 different LLMs by 21.9% in helpfulness and 23.8% in harmlessness on average (GPT-4 by 17.5% and 26.9%). When finetuning (strong) Llama2-70B with (weak) Aligner-13B's supervision, we can improve Llama2 by 8.2% in helpfulness and 61.6% in harmlessness. See our dataset and code at https://aligner2024.github.io
Abstract（参考訳）: 大規模言語モデル(LLM)の整合化への取り組みは、主にRLHF法(Reinforcement Learning from Human Feedback)を通じて行われる。しかし、RLHFはトレーニング報酬モデル、アクター-批評家工学といった大きな課題に直面しており、重要なことにLLMパラメータへのアクセスが必要である。ここでは、アライメントとアンアライメントされた回答の間の補正残差を学習することにより、RLHFプロセス全体をバイパスする新しい効率的なアライメントパラダイムであるAlignerを紹介する。私たちのAlignerには、いくつかの大きな利点があります。まず、教師付き学習を通じてクエリ・アンサー・コレクションデータセットに基づいてトレーニングされる自動回帰Seq2seqモデルであり、最小限のリソースでパラメータ効率の高いアライメントソリューションを提供する。第2に、Alignerは弱いから強い一般化を促進し、Alignerの監督信号による大規模な事前訓練モデルの微調整は、強い性能向上を示す。第3に、Alignerはモデルに依存しないプラグイン・アンド・プレイモジュールとして機能する。注目すべきことに、Aligner-7Bは11種類のLDMを21.9%、平均で23.8%改善している(GPT-4は17.5%、26.9%)。 Llama2-70Bを(弱い)アリグナー13Bの監督で微調整すると、Llama2は8.2%、無害は61.6%改善できる。データセットとコードはhttps://aligner2024.github.ioを参照。

関連論文リスト

GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文参考訳（メタデータ） (2025-07-24T02:34:13Z)
Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文参考訳（メタデータ） (2025-06-07T21:23:00Z)
Think, Prune, Train, Improve: Scaling Reasoning without Scaling Models [1.96238419451815]
大規模言語モデル(LLM)は、プログラミングや数学的推論タスクにおいて強力な能力を示しているが、高品質な訓練データに制限されている。我々は,高品質なトレーニングデータを確保するために,地道プルースプルーニングを用いて,自身の推論トレースを反復的に微調整するスケーラブルなフレームワークを導入する。 GSM8Kでは、Gemma2-2Bは57.6%(41.9%から)のPass@1、Gemma2-9Bは82%、LLaMA-3.1-70B、LLaMA-3.1-70Bは91%、GPT-4oを超える。
論文参考訳（メタデータ） (2025-04-25T06:48:55Z)
DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。 modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。 AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文参考訳（メタデータ） (2025-03-06T09:21:54Z)
IRepair: An Intent-Aware Approach to Repair Data-Driven Errors in Large Language Models [11.075423190298686]
大規模言語モデル(LLM)はデータセットのバイアスに弱いことで知られており、毒性などの問題を引き起こす。本稿では,動的スライシングに基づく意図認識型LLM修復戦略であるIRepairを紹介する。 IRepairはエラーを43.6%効率よく修復する一方で,一般性能の46%低下を招いた。
論文参考訳（メタデータ） (2025-02-10T22:07:02Z)
ARIES: Stimulating Self-Refinement of Large Language Models by Iterative Preference Optimization [34.77238246296517]
真にインテリジェントなLarge Language Model (LLM) は、外部インタラクションを通じて応答のエラーを修正する能力を持つべきである。 ARIES: Adaptive Refinement and Iterative Enhancement Structure。 ARIESは、反復的に好みのトレーニングと自己修正に基づくデータ収集を行う。
論文参考訳（メタデータ） (2025-02-08T15:21:55Z)
Stream Aligner: Efficient Sentence-Level Alignment via Distribution Induction [6.624814871290537]
Stream Alignerは,生成プロセスを通じて,効率性とさまざまなタスクのパフォーマンス向上を両立させる。 Alignerと比較して、Stream Alignerは追加モデルの能力への依存を減らし、LCMの推論能力を高め、ユーザインタラクションのレイテンシを低減します。
論文参考訳（メタデータ） (2025-01-09T16:02:51Z)
Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
本稿では、2人のプレーヤー間の非対称ゲームとしてアライメントをキャストする一般オープンエンドなRLHFフレームワークを提案する。 Asymmetric Self-Play (eva) によるアライメントの進化(Evolving Alignment)というこのフレームワークは、既存のRLHFアルゴリズムを拡張性のあるアライメントに利用できるシンプルで効率的なアプローチをもたらす。
論文参考訳（メタデータ） (2024-10-31T08:15:32Z)
Weak-to-Strong Preference Optimization: Stealing Reward from Weak Aligned Model [28.569089876442682]
この研究は弱強一般化に触発され、弱いモデルによって生成されるラベルに強いLMを微調整することで、弱いスーパーバイザーを一貫して上回る。 Weak-to-Strong Preference Optimization (WSPO)を提案し、弱いモデルのアライメント前後の分布差を学習することにより、強力なモデルアライメントを実現する。
論文参考訳（メタデータ） (2024-10-24T11:06:29Z)
Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-26T04:41:08Z)
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。 Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文参考訳（メタデータ） (2024-06-26T17:43:06Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness [94.03511733306296]
我々は,MLLMを超GPT-4V信頼性のための完全なオープンソースパラダイムに整合させるフレームワークであるRLAIF-Vを紹介する。 RLAIF-Vは、高品質なフィードバックデータとオンラインフィードバック学習アルゴリズムを含む、2つの観点から、オープンソースフィードバックを最大限活用する。実験により、RLAIF-Vは、他のタスクのパフォーマンスを犠牲にすることなく、モデルの信頼性を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-05-27T14:37:01Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences [21.5605000515622]
本稿では,大言語モデル(LLM)の学習後,オラクルからの嗜好フィードバックを用いて,モデル自体を反復的に改善する手法について検討する。提案手法は,理論的な一般化と対照的な学習の単純さと安定性を,一般の選好の最適化からマージする,証明可能かつ効率的なアルゴリズムである。実験で得られた 7B パラメータ Orca-2.5 モデルは,AlpacaE 2.0 上で 33% の GPT-4-Turbo に対して,初期化モデルに対して 26% (7% から 33%) の絶対ゲインを達成した。
論文参考訳（メタデータ） (2024-04-04T17:56:41Z)
AlpaGasus: Training A Better Alpaca with Fewer Data [93.6949102689243]
低品質なデータを自動的に識別しフィルタリングする、シンプルで効果的なデータ選択戦略を提案する。 52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。 AlpaGasusは、複数のテストセットと制御された人間の評価において、オリジナルのAlpacaを著しく上回っている。
論文参考訳（メタデータ） (2023-07-17T17:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。