論文の概要: Evolutionary Guided Decoding: Iterative Value Refinement for LLMs
- arxiv url: http://arxiv.org/abs/2503.02368v3
- Date: Sat, 04 Oct 2025 08:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:09.453074
- Title: Evolutionary Guided Decoding: Iterative Value Refinement for LLMs
- Title(参考訳): 進化的ガイドデコーディング - LLMの反復的価値再定義
- Authors: Zhenhua Liu, Lijun Li, Ruizhe Chen, Yuxian Jiang, Tong Zhu, Zhaochen Su, Wenliang Chen, Jing Shao,
- Abstract要約: イテレーティブ・バリュー・リファインメントはこのギャップを埋めるために設計された新しいフレームワークです。
より包括的で堅牢なトレーニング信号を提供するために、Value Explorationを採用している。
イテレーティブ・セルフリファインメントは、1回のイテレーションから改善された値関数を使用して、高品質なデータの生成をガイドします。
- 参考スコア(独自算出の注目度): 41.56764640311065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While guided decoding, especially value-guided methods, has emerged as a cost-effective alternative for controlling language model outputs without re-training models, its effectiveness is limited by the accuracy of the value function. We identify that this inaccuracy stems from a core distributional gap: existing methods train static value functions on trajectories sampled exclusively from the base policy, which inherently confines their training to a narrow and suboptimal view of the potential output space. We propose Iterative Value Refinement, a novel framework designed to bridge this gap. It employs Value Exploration to provide a more comprehensive and robust training signal, complemented by Iterative Self-Refinement, which uses the improved value function from one iteration to guide the generation of higher-quality data for the next. Extensive experiments on text summarization, multi-turn dialogue, and instruction following demonstrate the effectiveness of our framework in aligning language models. Our approach not only achieves alignment but also significantly reduces computational costs by leveraging principled value function optimization for efficient and effective control.
- Abstract(参考訳): 誘導復号法(特に値誘導法)は、モデルを再訓練せずに言語モデル出力を制御するためのコスト効率の良い代替手段として登場したが、その効果は値関数の精度によって制限されている。
既存の手法は、基本方針からのみサンプリングされた軌道上の静的値関数を訓練する。
このギャップを埋めるための新しいフレームワークであるIterative Value Refinementを提案する。
Iterative Self-Refinementが補完する、より包括的で堅牢なトレーニングシグナルを提供するためにValue Explorationを採用している。
テキスト要約,マルチターン対話,命令追従に関する大規模な実験は,言語モデルの整合化における我々のフレームワークの有効性を実証する。
提案手法はアライメントを達成できるだけでなく,高効率かつ効率的な制御に原理値関数最適化を活用することにより,計算コストを大幅に削減する。
関連論文リスト
- Cost-aware Stopping for Bayesian Optimization [53.34052774820105]
本稿では,様々な評価コストに適応し,チューニングが不要なベイズ最適化のためのコスト対応停止則を提案する。
我々は,最先端の取得関数と組み合わせた場合,停止規則によって得られる期待累積評価コストを拘束する理論的な保証を証明した。
論文 参考訳(メタデータ) (2025-07-16T17:54:14Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLeft-one-out PPO(LOOP)を提案する。
以上の結果から,LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善することが示された。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Direct Value Optimization: Improving Chain-of-Thought Reasoning in LLMs with Refined Values [31.415598465903884]
直接価値最適化(DVO)は、複雑な推論タスクにおいて大きな言語モデルを拡張するための革新的な強化学習フレームワークである。
DVOは個々の推論ステップで値信号を利用し、平均2乗誤差損失によってモデルを最適化する。
数学的および常識的推論タスクに関する実証分析により、DVOは既存のオフライン優先最適化手法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-02-19T13:51:05Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Efficient Estimation and Sequential Optimization of Cost Functions in Variational Quantum Algorithms [1.4981317129908267]
本稿では,パラメータ化量子回路を異なるユニタリ演算子の重み付け和として概念化する新しい最適化手法を提案する。
この表現は、コスト関数の非局所的特性とその任意の微分の効率的な評価を促進する。
従来の最適化手法と比較して,収束速度と精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-12-30T14:24:53Z) - Direct Preference Optimization Using Sparse Feature-Level Constraints [47.15096507230884]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - Landscape-Sketch-Step: An AI/ML-Based Metaheuristic for Surrogate
Optimization Problems [0.0]
コスト関数の広範囲な評価が高価で、アクセス不能、あるいは禁止されるシナリオにおいて、グローバルな最適化のための新しいアルゴリズムを導入する。
この手法はLandscape-Sketch-and-Step (LSS)と呼ばれ、機械学習、レプリカ最適化、強化学習技術を組み合わせたものである。
論文 参考訳(メタデータ) (2023-09-14T01:53:45Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Neural Solvers for Fast and Accurate Numerical Optimal Control [12.80824586913772]
本稿では,固定的な計算予算が与えられた場合,最適化された制御ポリシーの品質を向上させるための技術を提供する。
我々は、微分方程式解法とニューラルネットワークをハイブリダイズする超解法アプローチにより、上記のことを達成した。
論文 参考訳(メタデータ) (2022-03-13T10:46:50Z) - Implicit Rate-Constrained Optimization of Non-decomposable Objectives [37.43791617018009]
機械学習における制約付き最適化問題の一家系を考察する。
我々のキーとなる考え方は、閾値パラメータをモデルパラメータの関数として表現するレート制約のある最適化を定式化することである。
本稿では, 標準勾配法を用いて, 結果の最適化問題を解く方法を示す。
論文 参考訳(メタデータ) (2021-07-23T00:04:39Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。