論文の概要: InfAlign: Inference-aware language model alignment
- arxiv url: http://arxiv.org/abs/2412.19792v1
- Date: Fri, 27 Dec 2024 18:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:42.236401
- Title: InfAlign: Inference-aware language model alignment
- Title(参考訳): InfAlign: 推論対応言語モデルアライメント
- Authors: Ananth Balashankar, Ziteng Sun, Jonathan Berant, Jacob Eisenstein, Michael Collins, Adrian Hutter, Jong Lee, Chirag Nagpal, Flavien Prost, Aradhana Sinha, and Ananda Theertha Suresh, Ahmad Beirami,
- Abstract要約: 言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおいて重要なステップとなっている。
我々は,アライメントフレームワークが推論時間法の観点から準最適であることを示す。
推論認識アライメント(IAPO)のためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 57.3792161684013
- License:
- Abstract: Language model alignment has become a critical step in training modern generative language models. The goal of alignment is to finetune a reference model such that the win rate of a sample from the aligned model over a sample from the reference model is high, subject to a KL divergence constraint. Today, we are increasingly using inference-time algorithms (e.g., Best-of-N, controlled decoding, tree search) to decode from language models rather than standard sampling. However, the alignment objective does not capture such inference-time decoding procedures. We show that the existing alignment framework is sub-optimal in view of such inference-time methods. We then modify the alignment objective and propose a framework for inference-aware alignment (IAPO). We prove that for any inference-time decoding algorithm, the optimal solution that optimizes the inference-time win rate of the aligned policy against the reference policy is the solution to the typical RLHF problem with a transformation of the reward. This motivates us to provide the KL-regularized calibrate-and-transform RL (CTRL) algorithm to solve this problem, which involves a reward calibration step and a KL-regularized reward maximization step with a transformation of the calibrated reward. We particularize our study to two important inference-time strategies: best-of-N sampling and best-of-N jailbreaking, where N responses are sampled from the model and the one with the highest or lowest reward is selected. We propose specific transformations for these strategies and demonstrate that our framework offers significant improvements over existing state-of-the-art methods for language model alignment. Empirically, we outperform baselines that are designed without taking inference-time decoding into consideration by 8-12% and 4-9% on inference-time win rates over the Anthropic helpfulness and harmlessness dialog benchmark datasets.
- Abstract(参考訳): 言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおいて重要なステップとなっている。
アライメントの目的は、基準モデルからのサンプルに対するアライメントモデルからのサンプルの勝利率が、KL分散制約の下で高いように、参照モデルを微調整することである。
今日では、標準サンプリングではなく、推論時間アルゴリズム(Best-of-N、制御されたデコード、ツリー検索など)を用いて、言語モデルからデコードしています。
しかし、アライメントの目的はそのような推論時復号処理を捉えない。
既存のアライメントフレームワークは、そのような推論時間法の観点から、サブ最適であることを示す。
次に、アライメントの目的を変更し、推論対応アライメント(IAPO)のためのフレームワークを提案する。
任意の推論時間復号アルゴリズムに対して、基準ポリシーに対する整列ポリシーの予測時間勝利率を最適化する最適解が、報酬の変換を伴う典型的なRLHF問題の解であることを示す。
これにより、この問題を解決するために、KL正規化キャリブレート・アンド・トランスフォーメーションRL(CTRL)アルゴリズムを提供し、このアルゴリズムは、キャリブレーションされたリターンの変換を伴う報酬キャリブレーションステップとKL正規化カリブレーション報酬最大化ステップを含む。
我々は,本研究を,N値のサンプリングとN値のジェイルブレーキングという2つの重要な推定時間戦略に特化させ,N値がモデルからサンプリングされ,最も高い,最も低い報酬が選択される。
我々はこれらの戦略の具体的な変換を提案し、我々のフレームワークが既存の言語モデルアライメントのための最先端の手法よりも大幅に改善されていることを実証する。
提案手法は, 推定時間の復号化を考慮せずに設計したベースラインを, 8-12% と 4-9% で上回り, 人為的有用性および無害性ダイアログのベンチマークデータセットよりも優れている。
関連論文リスト
- Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。
このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。
我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文 参考訳(メタデータ) (2022-06-23T03:25:23Z) - Fast Convex Optimization for Two-Layer ReLU Networks: Equivalent Model
Classes and Cone Decompositions [41.337814204665364]
ReLUアクティベーション機能を持つ2層ニューラルネットワークの凸最適化アルゴリズムを開発した。
凸ゲート型ReLUモデルでは,ReLUトレーニング問題に対するデータ依存の近似バウンダリが得られることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:50:53Z) - Obtaining Adjustable Regularization for Free via Iterate Averaging [43.75491612671571]
最適化のための正規化は、機械学習の過度な適合を避けるための重要なテクニックである。
我々は、任意の強凸かつ滑らかな対象関数上のSGDの繰り返しを正規化された関数に変換する平均化スキームを確立する。
提案手法は,高速化および事前条件最適化手法にも利用できる。
論文 参考訳(メタデータ) (2020-08-15T15:28:05Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - A Speaker Verification Backend for Improved Calibration Performance
across Varying Conditions [21.452221762153577]
そこで本研究では,事前校正性能を良好に向上する話者検証のための識別バックエンドを提案する。
バックエンドのすべてのパラメータは、話者検証タスクのバイナリクロスエントロピーを最適化するために共同で訓練される。
本手法は,従来の提案手法と類似した性能を提供するが,実装が簡単で,トレーニングデータに対する要件も少ないことを示す。
論文 参考訳(メタデータ) (2020-02-05T15:37:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。