論文の概要: Iterative Value Function Optimization for Guided Decoding
- arxiv url: http://arxiv.org/abs/2503.02368v1
- Date: Tue, 04 Mar 2025 07:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:25.663394
- Title: Iterative Value Function Optimization for Guided Decoding
- Title(参考訳): 誘導復号化のための反復値関数最適化
- Authors: Zhenhua Liu, Lijun Li, Ruizhe Chen, Yuxian Jiang, Tong Zhu, Wenliang Chen, Jing Shao,
- Abstract要約: ガイド付き復号法、特に価値誘導法は、ヒューマンフィードバックからの強化学習に代わる費用対効果を提供する。
値関数の精度は、不正確さが最適下決定につながるため、値誘導復号には不可欠である。
既存の手法は、最適な値関数を正確に見積もることに苦慮し、より効果的な制御に繋がる。
- 参考スコア(独自算出の注目度): 21.00558031280043
- License:
- Abstract: While Reinforcement Learning from Human Feedback (RLHF) has become the predominant method for controlling language model outputs, it suffers from high computational costs and training instability. Guided decoding, especially value-guided methods, offers a cost-effective alternative by controlling outputs without re-training models. However, the accuracy of the value function is crucial for value-guided decoding, as inaccuracies can lead to suboptimal decision-making and degraded performance. Existing methods struggle with accurately estimating the optimal value function, leading to less effective control. We propose Iterative Value Function Optimization, a novel framework that addresses these limitations through two key components: Monte Carlo Value Estimation, which reduces estimation variance by exploring diverse trajectories, and Iterative On-Policy Optimization, which progressively improves value estimation through collecting trajectories from value-guided policies. Extensive experiments on text summarization, multi-turn dialogue, and instruction following demonstrate the effectiveness of value-guided decoding approaches in aligning language models. These approaches not only achieve alignment but also significantly reduce computational costs by leveraging principled value function optimization for efficient and effective control.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は言語モデルの出力を制御する主要な手法となっているが、高い計算コストとトレーニングの不安定性に悩まされている。
ガイド付き復号法、特に値誘導法は、モデルを再訓練することなく出力を制御することでコスト効率の良い代替手段を提供する。
しかし、値関数の精度は、不正確さが最適下決定や劣化性能につながるため、値誘導復号には不可欠である。
既存の手法は、最適な値関数を正確に見積もることに苦労し、より効果的な制御に繋がる。
モンテカルロ値推定(Monte Carlo Value Estimation)は多様なトラジェクトリを探索することで評価のばらつきを低減し、反復的オンポリシー最適化(Iterative On-Policy Optimization)は、価値誘導ポリシーからトラジェクトリを収集することで、段階的に価値推定を改善する。
テキスト要約、マルチターン対話、命令追従に関する広範囲な実験は、言語モデルの整合化における値誘導復号法の有効性を実証している。
これらの手法は、アライメントを達成するだけでなく、効率よく効率的な制御のために、原理化された値関数の最適化を活用することで計算コストを大幅に削減する。
関連論文リスト
- Direct Value Optimization: Improving Chain-of-Thought Reasoning in LLMs with Refined Values [31.415598465903884]
直接価値最適化(DVO)は、複雑な推論タスクにおいて大きな言語モデルを拡張するための革新的な強化学習フレームワークである。
DVOは個々の推論ステップで値信号を利用し、平均2乗誤差損失によってモデルを最適化する。
数学的および常識的推論タスクに関する実証分析により、DVOは既存のオフライン優先最適化手法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-02-19T13:51:05Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Efficient Estimation and Sequential Optimization of Cost Functions in Variational Quantum Algorithms [1.4981317129908267]
本稿では,パラメータ化量子回路を異なるユニタリ演算子の重み付け和として概念化する新しい最適化手法を提案する。
この表現は、コスト関数の非局所的特性とその任意の微分の効率的な評価を促進する。
従来の最適化手法と比較して,収束速度と精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-12-30T14:24:53Z) - Direct Preference Optimization Using Sparse Feature-Level Constraints [47.15096507230884]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - Landscape-Sketch-Step: An AI/ML-Based Metaheuristic for Surrogate
Optimization Problems [0.0]
コスト関数の広範囲な評価が高価で、アクセス不能、あるいは禁止されるシナリオにおいて、グローバルな最適化のための新しいアルゴリズムを導入する。
この手法はLandscape-Sketch-and-Step (LSS)と呼ばれ、機械学習、レプリカ最適化、強化学習技術を組み合わせたものである。
論文 参考訳(メタデータ) (2023-09-14T01:53:45Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Neural Solvers for Fast and Accurate Numerical Optimal Control [12.80824586913772]
本稿では,固定的な計算予算が与えられた場合,最適化された制御ポリシーの品質を向上させるための技術を提供する。
我々は、微分方程式解法とニューラルネットワークをハイブリダイズする超解法アプローチにより、上記のことを達成した。
論文 参考訳(メタデータ) (2022-03-13T10:46:50Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。