論文の概要: Decoding-time Realignment of Language Models
- arxiv url: http://arxiv.org/abs/2402.02992v2
- Date: Fri, 24 May 2024 08:39:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 23:16:57.547402
- Title: Decoding-time Realignment of Language Models
- Title(参考訳): 言語モデルの復号時間再配置
- Authors: Tianlin Liu, Shangmin Guo, Leonardo Bianco, Daniele Calandriello, Quentin Berthet, Felipe Llinares, Jessica Hoffmann, Lucas Dixon, Michal Valko, Mathieu Blondel,
- Abstract要約: そこで本研究では, 整列モデルの正則化強度をリトレーニングせずに探索し, 評価する手法を提案する。
DeRaはアライメントの度合いをコントロールし、アンアライメントモデルとアライメントモデルのスムーズな移行を可能にする。
- 参考スコア(独自算出の注目度): 44.54462397717971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning language models with human preferences is crucial for reducing errors and biases in these models. Alignment techniques, such as reinforcement learning from human feedback (RLHF), are typically cast as optimizing a tradeoff between human preference rewards and a proximity regularization term that encourages staying close to the unaligned model. Selecting an appropriate level of regularization is critical: insufficient regularization can lead to reduced model capabilities due to reward hacking, whereas excessive regularization hinders alignment. Traditional methods for finding the optimal regularization level require retraining multiple models with varying regularization strengths. This process, however, is resource-intensive, especially for large models. To address this challenge, we propose decoding-time realignment (DeRa), a simple method to explore and evaluate different regularization strengths in aligned models without retraining. DeRa enables control over the degree of alignment, allowing users to smoothly transition between unaligned and aligned models. It also enhances the efficiency of hyperparameter tuning by enabling the identification of effective regularization strengths using a validation dataset.
- Abstract(参考訳): 言語モデルを人間の好みで調整することは、これらのモデルにおける誤りやバイアスを減らすのに不可欠である。
人間のフィードバックからの強化学習(RLHF)のようなアライメントテクニックは、人間の好みの報酬と、不整合モデルに近づき続けることを促す近接正規化項とのトレードオフを最適化するものとして一般的に用いられる。
適切な正規化のレベルを選択することが重要である: 不十分な正規化は報酬ハックによるモデル能力の低下につながるが、過剰な正規化はアライメントを妨げる。
従来の最適正則化レベルを見つけるには、様々な正則化強度を持つ複数のモデルを再訓練する必要がある。
しかし、このプロセスは特に大規模モデルではリソース集約である。
この課題に対処するため,デコード時適応法 (DeRa) を提案する。
DeRaはアライメントの度合いをコントロールし、アンアライメントモデルとアライメントモデルのスムーズな移行を可能にする。
また、検証データセットを使用して効果的な正規化強度の識別を可能にすることにより、ハイパーパラメータチューニングの効率も向上する。
関連論文リスト
- Inference time LLM alignment in single and multidomain preference spectrum [16.849200702288307]
優先次元の符号化表現を学習する推論時間モデルアライメント手法を提案する。
これらの表現は、モデル編集のように、アライメントモデルからベースモデルのサブトラクションによって計算される。
好みの次元は様々なレベルにまたがることができるが、ここでは3つの専門領域にわたる3つの段階的な応答レベルに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-24T23:31:39Z) - Transducer Consistency Regularization for Speech to Text Applications [4.510630624936377]
本稿では,トランスデューサモデルの整合正則化手法であるTransducer Consistency Regularization (TCR)を提案する。
作業確率を利用してトランスデューサ出力分布に異なる重みを与えるので、オラクルアライメントに近いアライメントのみがモデル学習に寄与する。
提案手法は他の整合正規化実装よりも優れていることを示すとともに,textscLibrispeechデータセットの強いベースラインと比較して,単語誤り率(WER)を4.3%削減できることを示した。
論文 参考訳(メタデータ) (2024-10-09T23:53:13Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - DR-Tune: Improving Fine-tuning of Pretrained Visual Models by
Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。
DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。
セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文 参考訳(メタデータ) (2023-08-23T10:59:20Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Adaptive Fine-Tuning of Transformer-Based Language Models for Named
Entity Recognition [0.0]
微調整言語モデルに対する現在の標準的なアプローチは、一定数の訓練エポックと線形学習率スケジュールを含む。
本稿では,早期停止と独自の学習率スケジュールを用いた適応微調整手法を提案する。
論文 参考訳(メタデータ) (2022-02-05T19:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。