論文の概要: InfAlign: Inference-aware language model alignment
- arxiv url: http://arxiv.org/abs/2412.19792v3
- Date: Thu, 06 Feb 2025 18:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 15:30:40.418149
- Title: InfAlign: Inference-aware language model alignment
- Title(参考訳): InfAlign: 推論対応言語モデルアライメント
- Authors: Ananth Balashankar, Ziteng Sun, Jonathan Berant, Jacob Eisenstein, Michael Collins, Adrian Hutter, Jong Lee, Chirag Nagpal, Flavien Prost, Aradhana Sinha, Ananda Theertha Suresh, Ahmad Beirami,
- Abstract要約: 言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおける重要なステップである。
この列車/テストのミスマッチは、推論時間法の観点から標準のRLHFフレームワークを最適化することを示す。
本稿では,ベースモデルに対するアライメントポリシーの予測時間勝利率を最適化することを目的とした,推論対応アライメント(InfAlign)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 58.66389179049758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model alignment is a critical step in training modern generative language models. Alignment targets to improve win rate of a sample from the aligned model against the base model. Today, we are increasingly using inference-time algorithms (e.g., Best-of-N, controlled decoding, tree search) to decode from language models rather than standard sampling. We show that this train/test mismatch makes standard RLHF framework sub-optimal in view of such inference-time methods. To this end, we propose a framework for inference-aware alignment (InfAlign), which aims to optimize inference-time win rate of the aligned policy against the base model. We prove that for any inference-time decoding procedure, the optimal aligned policy is the solution to the standard RLHF problem with a transformation of the reward. This motivates us to provide the calibrate-and-transform RL (InfAlign-CTRL) algorithm to solve this problem, which involves a reward calibration step and a KL-regularized reward maximization step with a transformation of the calibrated reward. For best-of-N sampling and best-of-N jailbreaking, we propose specific transformations offering up to 3-8% improvement on inference-time win rates. Finally, we also show that our proposed reward calibration method is a strong baseline for optimizing standard win rate.
- Abstract(参考訳): 言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおける重要なステップである。
アライメントターゲットは、アライメントモデルとベースモデルとの整合モデルからサンプルの勝利率を改善する。
今日では、標準サンプリングではなく、推論時間アルゴリズム(Best-of-N、制御されたデコード、ツリー検索など)を用いて、言語モデルからデコードしています。
この列車/テストのミスマッチは、そのような推論時間法の観点から、標準のRLHFフレームワークを最適化することを示す。
そこで本研究では,ベースモデルに対するアライメントポリシーの予測時間勝利率を最適化することを目的とした,推論対応アライメント(InfAlign)フレームワークを提案する。
任意の推論時復号処理に対して、最適整合ポリシは報酬の変換を伴う標準RLHF問題の解であることを示す。
これにより、この問題を解決するために、キャリブレート・アンド・トランスフォーメーションRL(InfAlign-CTRL)アルゴリズムを提供し、キャリブレーション報酬の変換を伴う報酬キャリブレーションステップとKL正規化報酬最大化ステップを含む。
ベスト・オブ・Nサンプリングとベスト・オブ・Nジェイルブレイクのために、推論時間当たりの勝利率を最大3~8%改善する特定の変換を提案する。
最後に,提案手法が標準利得率を最適化するための強力な基準となることを示す。
関連論文リスト
- Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。
当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文 参考訳(メタデータ) (2025-02-20T17:48:45Z) - Adjoint Matching: Fine-tuning Flow and Diffusion Generative Models with Memoryless Stochastic Optimal Control [26.195547996552406]
我々は,反復的プロセスを通じてサンプルを生成する動的生成モデルに対して,報酬微調整を最適制御(SOC)として用いた。
提案手法は,報酬の微調整,一貫性の向上,リアリズム,人間の選好報酬モデルへの一般化など,既存の方法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-09-13T14:22:14Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。
このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。
我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文 参考訳(メタデータ) (2022-06-23T03:25:23Z) - Neural Improvement Heuristics for Graph Combinatorial Optimization
Problems [49.85111302670361]
本稿では,ノード,エッジ,あるいはその両方に情報をエンコードするグラフベースの問題を扱う新しいニューラル改善(NI)モデルを提案する。
提案モデルは,各地区の操作の選択を誘導する丘登頂に基づくアルゴリズムの基本的な構成要素として機能する。
論文 参考訳(メタデータ) (2022-06-01T10:35:29Z) - Fast Convex Optimization for Two-Layer ReLU Networks: Equivalent Model Classes and Cone Decompositions [47.276004075767176]
ReLUアクティベーション機能を持つ2層ニューラルネットワークの凸最適化のためのソフトウェアを開発した。
本稿では,凸ゲート型ReLUモデルにおいて,ReLUトレーニング問題に対するデータ依存アルゴリズムが得られたことを示す。
論文 参考訳(メタデータ) (2022-02-02T23:50:53Z) - Obtaining Adjustable Regularization for Free via Iterate Averaging [43.75491612671571]
最適化のための正規化は、機械学習の過度な適合を避けるための重要なテクニックである。
我々は、任意の強凸かつ滑らかな対象関数上のSGDの繰り返しを正規化された関数に変換する平均化スキームを確立する。
提案手法は,高速化および事前条件最適化手法にも利用できる。
論文 参考訳(メタデータ) (2020-08-15T15:28:05Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - A Speaker Verification Backend for Improved Calibration Performance
across Varying Conditions [21.452221762153577]
そこで本研究では,事前校正性能を良好に向上する話者検証のための識別バックエンドを提案する。
バックエンドのすべてのパラメータは、話者検証タスクのバイナリクロスエントロピーを最適化するために共同で訓練される。
本手法は,従来の提案手法と類似した性能を提供するが,実装が簡単で,トレーニングデータに対する要件も少ないことを示す。
論文 参考訳(メタデータ) (2020-02-05T15:37:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。