論文の概要: Inference-time Alignment in Continuous Space
- arxiv url: http://arxiv.org/abs/2505.20081v2
- Date: Wed, 28 May 2025 06:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.755748
- Title: Inference-time Alignment in Continuous Space
- Title(参考訳): 連続空間における推論時間アライメント
- Authors: Yige Yuan, Teng Xiao, Li Yunfan, Bingbing Xu, Shuchang Tao, Yunqi Qiu, Huawei Shen, Xueqi Cheng,
- Abstract要約: 推論時間アライメントのための単純で効果的なアルゴリズムであるSimple Energy Adaptation(textbfSEA$)を提案する。
SEAは、連続潜時空間における勾配に基づくサンプリングを通じて、基本ポリシーから最適なものへの元の応答を適応する。
例えば、SEAはAdvBenchで最大$textbf77.51%$、MATHで$textbf16.36%$で2番目に高いベースラインを上回っている。
- 参考スコア(独自算出の注目度): 60.24209195785341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models with human feedback at inference time has received increasing attention due to its flexibility. Existing methods rely on generating multiple responses from the base policy for search using a reward model, which can be considered as searching in a discrete response space. However, these methods struggle to explore informative candidates when the base policy is weak or the candidate set is small, resulting in limited effectiveness. In this paper, to address this problem, we propose Simple Energy Adaptation ($\textbf{SEA}$), a simple yet effective algorithm for inference-time alignment. In contrast to expensive search over the discrete space, SEA directly adapts original responses from the base policy toward the optimal one via gradient-based sampling in continuous latent space. Specifically, SEA formulates inference as an iterative optimization procedure on an energy function over actions in the continuous space defined by the optimal policy, enabling simple and effective alignment. For instance, despite its simplicity, SEA outperforms the second-best baseline with a relative improvement of up to $ \textbf{77.51%}$ on AdvBench and $\textbf{16.36%}$ on MATH. Our code is publicly available at https://github.com/yuanyige/sea
- Abstract(参考訳): 人間のフィードバックを推論時に調整する大規模言語モデルは、その柔軟性のために注目を集めている。
既存の方法は、報酬モデルを用いて検索のための基本方針から複数の応答を生成することに依存しており、これは離散的な応答空間における探索と見なすことができる。
しかし、これらの手法は、基本方針が弱い場合や、候補集合が小さい場合、情報的候補を探索するのに苦労し、その結果、有効性が制限される。
本稿では、この問題を解決するために、推論時アライメントのための単純で効果的なアルゴリズムであるSimple Energy Adaptation($\textbf{SEA}$)を提案する。
離散空間上の高価な探索とは対照的に、SEAは連続潜時空間における勾配に基づくサンプリングを通じて、基本方針からの原応答を直接最適に適応させる。
具体的には、SEAは最適ポリシーによって定義された連続空間における作用に対するエネルギー関数の反復最適化手順として推論を定式化し、単純かつ効果的なアライメントを可能にする。
例えば、その単純さにもかかわらず、SEAはAdvBenchで$ \textbf{77.51%}$とMATHで$\textbf{16.36%}$の相対的な改善で2番目に高いベースラインを上回っている。
私たちのコードはhttps://github.com/yuanyige/seaで公開されています。
関連論文リスト
- Span-Agnostic Optimal Sample Complexity and Oracle Inequalities for Average-Reward RL [6.996002801232415]
生成モデルを用いてマルコフ決定過程(MDP)において,$varepsilon$-optimal Policyを求める際のサンプル複雑性について検討した。
我々は,知識を必要とせず,最適なスパンベース複雑性に適合するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-16T19:10:55Z) - Practical Bayesian Algorithm Execution via Posterior Sampling [24.795916177776856]
PS-BAXは後方サンプリングに基づく単純で効果的でスケーラブルなBAX法である。
PS-BAXは、多くの最適化変種やレベルセット推定を含む幅広い問題に適用できる。
論文 参考訳(メタデータ) (2024-10-27T21:11:55Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Training Greedy Policy for Proposal Batch Selection in Expensive Multi-Objective Combinatorial Optimization [52.80408805368928]
本稿では,バッチ取得のための新しいグリーディ型サブセット選択アルゴリズムを提案する。
赤蛍光タンパク質に関する実験により,提案手法は1.69倍少ないクエリでベースライン性能を達成できることが判明した。
論文 参考訳(メタデータ) (2024-06-21T05:57:08Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
ヒューマンフィードバック(RLHF)からの強化学習を用いた大規模言語モデル(LLM)のアライメント
状況の均一なサンプリングは、最適政策と一定の準最適差を被る政策につながる可能性があることを示す。
我々は,最も不確実なコンテキストに対する嗜好を反復的に収集するアルゴリズムである$textttAPO$を提案する。
論文 参考訳(メタデータ) (2024-02-16T08:19:34Z) - Reinforcement Learning from Human Feedback with Active Queries [59.855433734053555]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発された問合せ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z) - Simple Policy Optimization [15.66748378216631]
信頼地域政策最適化(Trust Region Policy Optimization, TRPO)は、信頼領域内の保守的な更新を通じて単調な政策改善を保証することで知られている。
PPO(Proximal Policy Optimization)は、TRPOのアプローチを単純化し、効率を向上するが、理論的な堅牢性を犠牲にすることで、この問題に対処する。
どちらの方法の長所を組み合わせられるだろうか?
本稿では,制約のない新しい1次アルゴリズムであるSimple Policy Optimization (SPO)を紹介する。
論文 参考訳(メタデータ) (2024-01-29T10:17:54Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。