論文の概要: Transfer Q Star: Principled Decoding for LLM Alignment
- arxiv url: http://arxiv.org/abs/2405.20495v1
- Date: Thu, 30 May 2024 21:36:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 18:05:15.017417
- Title: Transfer Q Star: Principled Decoding for LLM Alignment
- Title(参考訳): Transfer Q Star: LLMアライメントのための原則デコーディング
- Authors: Souradip Chakraborty, Soumya Suvra Ghosal, Ming Yin, Dinesh Manocha, Mengdi Wang, Amrit Singh Bedi, Furong Huang,
- Abstract要約: Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
- 参考スコア(独自算出の注目度): 105.89114186982972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning foundation models is essential for their safe and trustworthy deployment. However, traditional fine-tuning methods are computationally intensive and require updating billions of model parameters. A promising alternative, alignment via decoding, adjusts the response distribution directly without model updates to maximize a target reward $r$, thus providing a lightweight and adaptable framework for alignment. However, principled decoding methods rely on oracle access to an optimal Q-function ($Q^*$), which is often unavailable in practice. Hence, prior SoTA methods either approximate this $Q^*$ using $Q^{\pi_{\texttt{sft}}}$ (derived from the reference $\texttt{SFT}$ model) or rely on short-term rewards, resulting in sub-optimal decoding performance. In this work, we propose Transfer $Q^*$, which implicitly estimates the optimal value function for a target reward $r$ through a baseline model $\rho_{\texttt{BL}}$ aligned with a baseline reward $\rho_{\texttt{BL}}$ (which can be different from the target reward $r$). Theoretical analyses of Transfer $Q^*$ provide a rigorous characterization of its optimality, deriving an upper bound on the sub-optimality gap and identifying a hyperparameter to control the deviation from the pre-trained reference $\texttt{SFT}$ model based on user needs. Our approach significantly reduces the sub-optimality gap observed in prior SoTA methods and demonstrates superior empirical performance across key metrics such as coherence, diversity, and quality in extensive tests on several synthetic and real datasets.
- Abstract(参考訳): ファンデーションモデルのアラインメントは、安全で信頼性の高いデプロイメントに不可欠です。
しかし、従来の微調整手法は計算集約的であり、数十億のモデルパラメータを更新する必要がある。
期待できる代替手段は、デコーディングによるアライメントで、モデル更新なしで応答分布を直接調整し、目標の$r$を最大化することで、アライメントのための軽量で適応可能なフレームワークを提供する。
しかし、原理化された復号法は、しばしば実際に利用できない最適なQ関数(Q^*$)へのオラクルアクセスに依存している。
したがって、以前のSoTAメソッドはこの$Q^*$を$Q^{\pi_{\textt{sft}}}$(参照 $\texttt{SFT}$ model に由来する)で近似するか、短期的な報酬に依存して、準最適復号性能をもたらす。
本研究では、ベースラインモデルを通してターゲット報酬$r$の最適値関数を暗黙的に推定するTransfer $Q^*$を提案し、ベースラインモデル$\rho_{\textt{BL}}$とベースライン報酬$\rho_{\textt{BL}}$(ターゲット報酬$r$と異なる場合もある)を一致させる。
Transfer $Q^*$の理論的解析は、その最適性を厳密に評価し、サブ最適性ギャップの上限を導出し、事前訓練された参照$\texttt{SFT}$モデルから逸脱を制御するハイパーパラメータを識別する。
提案手法は,従来のSoTA法で観測された準最適性ギャップを著しく低減し,複数の合成および実データに対する広範囲な試験において,コヒーレンス,多様性,品質といった重要な指標にまたがる優れた経験的性能を示す。
関連論文リスト
- Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好の整合において重要である。
現在の方法は、プロンプトジェネレーションのデータセットからプロンプトジェネレーションペアを均一に選択することに依存している。
我々は、好みデータをクエリすることでモデルアライメントを向上させるアクティブな学習アルゴリズムである$textttAPO$を開発した。
論文 参考訳(メタデータ) (2024-02-16T08:19:34Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Bayes beats Cross Validation: Efficient and Accurate Ridge Regression
via Expectation Maximization [3.061662434597098]
本稿では,正規化ハイパーパラメータである$lambda$について,LOOCV(Left-out-out Cross-validation)よりも高速に計算できる手法を提案する。
提案手法は,比較的穏やかな条件下で,十分大きな$n$に対して,一意の最適解を求めることが保証されている。
論文 参考訳(メタデータ) (2023-10-29T01:13:55Z) - Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Bayesian Learning via Q-Exponential Process [10.551294837978363]
正規化は最適化、統計、機械学習における最も基本的なトピックの1つである。
本研究では、$q$-指数分布(密度比で)$exp( frac12|u|q)$を、関数の正規化に対応する$Q$-指数(Q-EP)プロセスというプロセスに一般化する。
論文 参考訳(メタデータ) (2022-10-14T17:37:14Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - UVIP: Model-Free Approach to Evaluate Reinforcement Learning Algorithms [5.582861438320171]
政策評価は強化学習(RL)における異なるアルゴリズムの比較のための重要な手段である
Vstar(x) - Vpi(x)$を上から推定し、$Vstar$に対する信頼区間を構築することができる。
一般的な仮定の下では$sf UVIP$の理論的保証を提供し、その性能を多くのベンチマークRL問題で示す。
論文 参考訳(メタデータ) (2021-05-05T15:38:36Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。