論文の概要: Decoding-time Realignment of Language Models
- arxiv url: http://arxiv.org/abs/2402.02992v1
- Date: Mon, 5 Feb 2024 13:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:54:43.535577
- Title: Decoding-time Realignment of Language Models
- Title(参考訳): 言語モデルの復号時間再配置
- Authors: Tianlin Liu, Shangmin Guo, Leonardo Bianco, Daniele Calandriello,
Quentin Berthet, Felipe Llinares, Jessica Hoffmann, Lucas Dixon, Michal
Valko, Mathieu Blondel
- Abstract要約: そこで本研究では, 整列モデルの正則化強度をリトレーニングせずに探索し, 評価する手法を提案する。
DeRaはアライメントの度合いをコントロールし、アンアライメントモデルとアライメントモデルのスムーズな移行を可能にする。
- 参考スコア(独自算出の注目度): 45.87041257990527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning language models with human preferences is crucial for reducing
errors and biases in these models. Alignment techniques, such as reinforcement
learning from human feedback (RLHF), are typically cast as optimizing a
tradeoff between human preference rewards and a proximity regularization term
that encourages staying close to the unaligned model. Selecting an appropriate
level of regularization is critical: insufficient regularization can lead to
reduced model capabilities due to reward hacking, whereas excessive
regularization hinders alignment. Traditional methods for finding the optimal
regularization level require retraining multiple models with varying
regularization strengths. This process, however, is resource-intensive,
especially for large models. To address this challenge, we propose
decoding-time realignment (DeRa), a simple method to explore and evaluate
different regularization strengths in aligned models without retraining. DeRa
enables control over the degree of alignment, allowing users to smoothly
transition between unaligned and aligned models. It also enhances the
efficiency of hyperparameter tuning by enabling the identification of effective
regularization strengths using a validation dataset.
- Abstract(参考訳): 言語モデルを人間の好みで調整することは、これらのモデルにおける誤りやバイアスを減らすために不可欠である。
人間のフィードバックからの強化学習(rlhf)のようなアライメント手法は、通常、人間の選好報酬と、非アライメントモデルに近づくことを奨励する近接正規化項とのトレードオフを最適化するものとしてキャストされる。
適切なレギュライゼーションのレベルを選択することは重要である:不十分なレギュライゼーションは、報酬ハッキングによるモデル能力の低下につながるが、過剰なレギュライゼーションはアライメントを妨げる。
最適正則化レベルを求める伝統的な方法は、正則化強度の異なる複数のモデルを再訓練する必要がある。
しかし、このプロセスは特に大規模モデルではリソース集約である。
そこで本研究では,アライメントモデルの異なる正則化強度を再訓練することなく探索し,評価するための簡便な手法であるデコード・タイム・リアリゲーション(dera)を提案する。
DeRaはアライメントの度合いをコントロールし、アンアライメントモデルとアライメントモデルのスムーズな移行を可能にする。
また、検証データセットを用いた効果的な正規化強度の識別を可能にすることにより、ハイパーパラメータチューニングの効率を向上させる。
関連論文リスト
- Linear Alignment: A Closed-form Solution for Aligning Human Preferences
without Tuning and Feedback [72.21755067005049]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - DR-Tune: Improving Fine-tuning of Pretrained Visual Models by
Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。
DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。
セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文 参考訳(メタデータ) (2023-08-23T10:59:20Z) - On Regularization and Inference with Label Constraints [62.60903248392479]
機械学習パイプラインにおけるラベル制約を符号化するための2つの戦略、制約付き正規化、制約付き推論を比較した。
正規化については、制約に不整合なモデルを前置することで一般化ギャップを狭めることを示す。
制約付き推論では、モデルの違反を訂正することで人口リスクを低減し、それによってその違反を有利にすることを示す。
論文 参考訳(メタデータ) (2023-07-08T03:39:22Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Conditional Deformable Image Registration with Spatially-Variant and
Adaptive Regularization [2.3419031955865517]
条件付き空間適応型インスタンス正規化(CSAIN)に基づく学習ベース登録手法を提案する。
実験の結果,提案手法は空間変動および適応正則化を達成しつつ,ベースラインアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-19T16:12:06Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Adaptive Fine-Tuning of Transformer-Based Language Models for Named
Entity Recognition [0.0]
微調整言語モデルに対する現在の標準的なアプローチは、一定数の訓練エポックと線形学習率スケジュールを含む。
本稿では,早期停止と独自の学習率スケジュールを用いた適応微調整手法を提案する。
論文 参考訳(メタデータ) (2022-02-05T19:20:03Z) - Variational Inference with NoFAS: Normalizing Flow with Adaptive
Surrogate for Computationally Expensive Models [7.217783736464403]
マルコフ連鎖モンテカルロのようなサンプリングに基づくアプローチの使用は、それぞれの可能性評価が計算的に高価であるときに難解になる可能性がある。
変分推論と正規化フローを組み合わせた新しいアプローチは、潜在変数空間の次元と線形にしか成長しない計算コストによって特徴づけられる。
本稿では,ニューラルネットワークサロゲートモデルの正規化フローパラメータと重みを代わりに更新する最適化戦略である,適応サロゲートを用いた正規化フロー(NoFAS)を提案する。
論文 参考訳(メタデータ) (2021-08-28T14:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。