論文の概要: InfAlign: Inference-aware language model alignment
- arxiv url: http://arxiv.org/abs/2412.19792v1
- Date: Fri, 27 Dec 2024 18:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:42.236401
- Title: InfAlign: Inference-aware language model alignment
- Title(参考訳): InfAlign: 推論対応言語モデルアライメント
- Authors: Ananth Balashankar, Ziteng Sun, Jonathan Berant, Jacob Eisenstein, Michael Collins, Adrian Hutter, Jong Lee, Chirag Nagpal, Flavien Prost, Aradhana Sinha, and Ananda Theertha Suresh, Ahmad Beirami,
- Abstract要約: 言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおいて重要なステップとなっている。
我々は,アライメントフレームワークが推論時間法の観点から準最適であることを示す。
推論認識アライメント(IAPO)のためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 57.3792161684013
- License:
- Abstract: Language model alignment has become a critical step in training modern generative language models. The goal of alignment is to finetune a reference model such that the win rate of a sample from the aligned model over a sample from the reference model is high, subject to a KL divergence constraint. Today, we are increasingly using inference-time algorithms (e.g., Best-of-N, controlled decoding, tree search) to decode from language models rather than standard sampling. However, the alignment objective does not capture such inference-time decoding procedures. We show that the existing alignment framework is sub-optimal in view of such inference-time methods. We then modify the alignment objective and propose a framework for inference-aware alignment (IAPO). We prove that for any inference-time decoding algorithm, the optimal solution that optimizes the inference-time win rate of the aligned policy against the reference policy is the solution to the typical RLHF problem with a transformation of the reward. This motivates us to provide the KL-regularized calibrate-and-transform RL (CTRL) algorithm to solve this problem, which involves a reward calibration step and a KL-regularized reward maximization step with a transformation of the calibrated reward. We particularize our study to two important inference-time strategies: best-of-N sampling and best-of-N jailbreaking, where N responses are sampled from the model and the one with the highest or lowest reward is selected. We propose specific transformations for these strategies and demonstrate that our framework offers significant improvements over existing state-of-the-art methods for language model alignment. Empirically, we outperform baselines that are designed without taking inference-time decoding into consideration by 8-12% and 4-9% on inference-time win rates over the Anthropic helpfulness and harmlessness dialog benchmark datasets.
- Abstract(参考訳): 言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおいて重要なステップとなっている。
アライメントの目的は、基準モデルからのサンプルに対するアライメントモデルからのサンプルの勝利率が、KL分散制約の下で高いように、参照モデルを微調整することである。
今日では、標準サンプリングではなく、推論時間アルゴリズム(Best-of-N、制御されたデコード、ツリー検索など)を用いて、言語モデルからデコードしています。
しかし、アライメントの目的はそのような推論時復号処理を捉えない。
既存のアライメントフレームワークは、そのような推論時間法の観点から、サブ最適であることを示す。
次に、アライメントの目的を変更し、推論対応アライメント(IAPO)のためのフレームワークを提案する。
任意の推論時間復号アルゴリズムに対して、基準ポリシーに対する整列ポリシーの予測時間勝利率を最適化する最適解が、報酬の変換を伴う典型的なRLHF問題の解であることを示す。
これにより、この問題を解決するために、KL正規化キャリブレート・アンド・トランスフォーメーションRL(CTRL)アルゴリズムを提供し、このアルゴリズムは、キャリブレーションされたリターンの変換を伴う報酬キャリブレーションステップとKL正規化カリブレーション報酬最大化ステップを含む。
我々は,本研究を,N値のサンプリングとN値のジェイルブレーキングという2つの重要な推定時間戦略に特化させ,N値がモデルからサンプリングされ,最も高い,最も低い報酬が選択される。
我々はこれらの戦略の具体的な変換を提案し、我々のフレームワークが既存の言語モデルアライメントのための最先端の手法よりも大幅に改善されていることを実証する。
提案手法は, 推定時間の復号化を考慮せずに設計したベースラインを, 8-12% と 4-9% で上回り, 人為的有用性および無害性ダイアログのベンチマークデータセットよりも優れている。
関連論文リスト
- Fast Best-of-N Decoding via Speculative Rejection [49.11955026456773]
推論時間アライメント手法は、訓練後の複雑なステップを避ける。
Best-of-Nは、標準的なデコード戦略よりも推論時にはるかに多くのリソースを必要とする。
本稿では,予測時間アライメントアルゴリズムであるSpeculative Rejectionを紹介する。
論文 参考訳(メタデータ) (2024-10-26T23:20:48Z) - Adjoint Matching: Fine-tuning Flow and Diffusion Generative Models with Memoryless Stochastic Optimal Control [26.195547996552406]
我々は,反復的プロセスを通じてサンプルを生成する動的生成モデルに対して,報酬微調整を最適制御(SOC)として用いた。
提案手法は,報酬の微調整,一貫性の向上,リアリズム,人間の選好報酬モデルへの一般化など,既存の方法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-09-13T14:22:14Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Decoding-time Realignment of Language Models [44.54462397717971]
そこで本研究では, 整列モデルの正則化強度をリトレーニングせずに探索し, 評価する手法を提案する。
DeRaはアライメントの度合いをコントロールし、アンアライメントモデルとアライメントモデルのスムーズな移行を可能にする。
論文 参考訳(メタデータ) (2024-02-05T13:31:28Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。
このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。
我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文 参考訳(メタデータ) (2022-06-23T03:25:23Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。