Fugu-MT 論文翻訳(概要): InfAlign: Inference-aware language model alignment

論文の概要: InfAlign: Inference-aware language model alignment

arxiv url: http://arxiv.org/abs/2412.19792v1
Date: Fri, 27 Dec 2024 18:45:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:05.348783
Title: InfAlign: Inference-aware language model alignment
Title（参考訳）: InfAlign: 推論対応言語モデルアライメント
Authors: Ananth Balashankar, Ziteng Sun, Jonathan Berant, Jacob Eisenstein, Michael Collins, Adrian Hutter, Jong Lee, Chirag Nagpal, Flavien Prost, Aradhana Sinha, and Ananda Theertha Suresh, Ahmad Beirami,
Abstract要約: 言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおいて重要なステップとなっている。我々は,アライメントフレームワークが推論時間法の観点から準最適であることを示す。推論認識アライメント(IAPO)のためのフレームワークを提案する。
参考スコア（独自算出の注目度）: 57.3792161684013
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language model alignment has become a critical step in training modern generative language models. The goal of alignment is to finetune a reference model such that the win rate of a sample from the aligned model over a sample from the reference model is high, subject to a KL divergence constraint. Today, we are increasingly using inference-time algorithms (e.g., Best-of-N, controlled decoding, tree search) to decode from language models rather than standard sampling. However, the alignment objective does not capture such inference-time decoding procedures. We show that the existing alignment framework is sub-optimal in view of such inference-time methods. We then modify the alignment objective and propose a framework for inference-aware alignment (IAPO). We prove that for any inference-time decoding algorithm, the optimal solution that optimizes the inference-time win rate of the aligned policy against the reference policy is the solution to the typical RLHF problem with a transformation of the reward. This motivates us to provide the KL-regularized calibrate-and-transform RL (CTRL) algorithm to solve this problem, which involves a reward calibration step and a KL-regularized reward maximization step with a transformation of the calibrated reward. We particularize our study to two important inference-time strategies: best-of-N sampling and best-of-N jailbreaking, where N responses are sampled from the model and the one with the highest or lowest reward is selected. We propose specific transformations for these strategies and demonstrate that our framework offers significant improvements over existing state-of-the-art methods for language model alignment. Empirically, we outperform baselines that are designed without taking inference-time decoding into consideration by 8-12% and 4-9% on inference-time win rates over the Anthropic helpfulness and harmlessness dialog benchmark datasets.
Abstract（参考訳）: 言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおいて重要なステップとなっている。アライメントの目的は、基準モデルからのサンプルに対するアライメントモデルからのサンプルの勝利率が、KL分散制約の下で高いように、参照モデルを微調整することである。今日では、標準サンプリングではなく、推論時間アルゴリズム(Best-of-N、制御されたデコード、ツリー検索など)を用いて、言語モデルからデコードしています。しかし、アライメントの目的はそのような推論時復号処理を捉えない。既存のアライメントフレームワークは、そのような推論時間法の観点から、サブ最適であることを示す。次に、アライメントの目的を変更し、推論対応アライメント(IAPO)のためのフレームワークを提案する。任意の推論時間復号アルゴリズムに対して、基準ポリシーに対する整列ポリシーの予測時間勝利率を最適化する最適解が、報酬の変換を伴う典型的なRLHF問題の解であることを示す。これにより、この問題を解決するために、KL正規化キャリブレート・アンド・トランスフォーメーションRL(CTRL)アルゴリズムを提供し、このアルゴリズムは、キャリブレーションされたリターンの変換を伴う報酬キャリブレーションステップとKL正規化カリブレーション報酬最大化ステップを含む。我々は,本研究を,N値のサンプリングとN値のジェイルブレーキングという2つの重要な推定時間戦略に特化させ,N値がモデルからサンプリングされ,最も高い,最も低い報酬が選択される。我々はこれらの戦略の具体的な変換を提案し、我々のフレームワークが既存の言語モデルアライメントのための最先端の手法よりも大幅に改善されていることを実証する。提案手法は, 推定時間の復号化を考慮せずに設計したベースラインを, 8-12% と 4-9% で上回り, 人為的有用性および無害性ダイアログのベンチマークデータセットよりも優れている。

関連論文リスト

Psi-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models [10.542645300983878]
$Psi$-Samplerは、pCNLベースの初期粒子サンプリングを組み込んだSMCベースのフレームワークである。スコアベース生成モデルとの推論時間報酬アライメントは、大きな注目を集めている。
論文参考訳（メタデータ） (2025-06-02T05:02:33Z)
Alignment-Augmented Speculative Decoding with Alignment Sampling and Conditional Verification [33.05591553169347]
トレーニング不要なアライメント拡張型投機的復号アルゴリズムを提案する。提案手法は,平均受理長を2.39まで,生成速度を2.23倍に向上させる。
論文参考訳（メタデータ） (2025-05-19T14:55:41Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文参考訳（メタデータ） (2025-02-20T17:48:45Z)
Provably Efficient Online RLHF with One-Pass Reward Modeling [59.30310692855397]
本稿では,過去のデータを保存する必要がなく,一定時間で計算できるワンパス報酬モデリング手法を提案する。提案手法は,統計的および計算効率の両面で向上することを示す理論的保証を提供する。我々はUltrafeedback-binarizedおよびMixture2データセット上でLlama-3-8B-InstructとQwen2.5-7B-Instructモデルを用いて実験を行った。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Gradient Correction in Federated Learning with Adaptive Optimization [19.93709245766609]
クライアント-ドリフト補償を適応最適化に組み込む最初のアルゴリズムである tt FAdamGC を提案する。 tt FAdamGCは、様々なレベルのデータの通信とコストにおいて、既存の手法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-02-04T21:21:30Z)
Adjoint Matching: Fine-tuning Flow and Diffusion Generative Models with Memoryless Stochastic Optimal Control [26.195547996552406]
我々は,反復的プロセスを通じてサンプルを生成する動的生成モデルに対して,報酬微調整を最適制御(SOC)として用いた。提案手法は,報酬の微調整,一貫性の向上,リアリズム,人間の選好報酬モデルへの一般化など,既存の方法よりも大幅に改善されている。
論文参考訳（メタデータ） (2024-09-13T14:22:14Z)
Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文参考訳（メタデータ） (2024-06-27T02:46:30Z)
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文参考訳（メタデータ） (2023-08-03T18:03:44Z)
Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文参考訳（メタデータ） (2022-06-23T03:25:23Z)
Neural Improvement Heuristics for Graph Combinatorial Optimization Problems [49.85111302670361]
本稿では,ノード,エッジ,あるいはその両方に情報をエンコードするグラフベースの問題を扱う新しいニューラル改善(NI)モデルを提案する。提案モデルは,各地区の操作の選択を誘導する丘登頂に基づくアルゴリズムの基本的な構成要素として機能する。
論文参考訳（メタデータ） (2022-06-01T10:35:29Z)
Fast Convex Optimization for Two-Layer ReLU Networks: Equivalent Model Classes and Cone Decompositions [47.276004075767176]
ReLUアクティベーション機能を持つ2層ニューラルネットワークの凸最適化のためのソフトウェアを開発した。本稿では,凸ゲート型ReLUモデルにおいて,ReLUトレーニング問題に対するデータ依存アルゴリズムが得られたことを示す。
論文参考訳（メタデータ） (2022-02-02T23:50:53Z)
Obtaining Adjustable Regularization for Free via Iterate Averaging [43.75491612671571]
最適化のための正規化は、機械学習の過度な適合を避けるための重要なテクニックである。我々は、任意の強凸かつ滑らかな対象関数上のSGDの繰り返しを正規化された関数に変換する平均化スキームを確立する。提案手法は,高速化および事前条件最適化手法にも利用できる。
論文参考訳（メタデータ） (2020-08-15T15:28:05Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)
A Speaker Verification Backend for Improved Calibration Performance across Varying Conditions [21.452221762153577]
そこで本研究では,事前校正性能を良好に向上する話者検証のための識別バックエンドを提案する。バックエンドのすべてのパラメータは、話者検証タスクのバイナリクロスエントロピーを最適化するために共同で訓練される。本手法は,従来の提案手法と類似した性能を提供するが,実装が簡単で,トレーニングデータに対する要件も少ないことを示す。
論文参考訳（メタデータ） (2020-02-05T15:37:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。