論文の概要: Inference-time Alignment in Continuous Space
- arxiv url: http://arxiv.org/abs/2505.20081v1
- Date: Mon, 26 May 2025 14:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.535084
- Title: Inference-time Alignment in Continuous Space
- Title(参考訳): 連続空間における推論時間アライメント
- Authors: Yige Yuan, Teng Xiao, Li Yunfan, Bingbing Xu, Shuchang Tao, Yunqi Qiu, Huawei Shen, Xueqi Cheng,
- Abstract要約: 推論時間アライメントのための単純で効果的なアルゴリズムであるSimple Energy Adaptation(textbfSEA$)を提案する。
SEAは、連続潜時空間における勾配に基づくサンプリングを通じて、基本ポリシーから最適なものへの元の応答を適応する。
例えば、SEAはAdvBenchで最大$textbf77.51%$、MATHで$textbf16.36%$で2番目に高いベースラインを上回っている。
- 参考スコア(独自算出の注目度): 60.24209195785341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models with human feedback at inference time has received increasing attention due to its flexibility. Existing methods rely on generating multiple responses from the base policy for search using a reward model, which can be considered as searching in a discrete response space. However, these methods struggle to explore informative candidates when the base policy is weak or the candidate set is small, resulting in limited effectiveness. In this paper, to address this problem, we propose Simple Energy Adaptation ($\textbf{SEA}$), a simple yet effective algorithm for inference-time alignment. In contrast to expensive search over the discrete space, SEA directly adapts original responses from the base policy toward the optimal one via gradient-based sampling in continuous latent space. Specifically, SEA formulates inference as an iterative optimization procedure on an energy function over actions in the continuous space defined by the optimal policy, enabling simple and effective alignment. For instance, despite its simplicity, SEA outperforms the second-best baseline with a relative improvement of up to $ \textbf{77.51%}$ on AdvBench and $\textbf{16.36%}$ on MATH. Our code is publicly available at https://github.com/yuanyige/SEA
- Abstract(参考訳): 人間のフィードバックを推論時に調整する大規模言語モデルは、その柔軟性のために注目を集めている。
既存の方法は、報酬モデルを用いて検索のための基本方針から複数の応答を生成することに依存しており、これは離散的な応答空間における探索と見なすことができる。
しかし、これらの手法は、基本方針が弱い場合や、候補集合が小さい場合、情報的候補を探索するのに苦労し、その結果、有効性が制限される。
本稿では、この問題を解決するために、推論時アライメントのための単純で効果的なアルゴリズムであるSimple Energy Adaptation($\textbf{SEA}$)を提案する。
離散空間上の高価な探索とは対照的に、SEAは連続潜時空間における勾配に基づくサンプリングを通じて、基本方針からの原応答を直接最適に適応させる。
具体的には、SEAは最適ポリシーによって定義された連続空間における作用に対するエネルギー関数の反復最適化手順として推論を定式化し、単純かつ効果的なアライメントを可能にする。
例えば、その単純さにもかかわらず、SEAはAdvBenchで$ \textbf{77.51%}$とMATHで$\textbf{16.36%}$の相対的な改善で2番目に高いベースラインを上回っている。
私たちのコードはhttps://github.com/yuanyige/SEAで公開されています。
関連論文リスト
- Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Reinforcement Learning from Human Feedback with Active Queries [59.855433734053555]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発された問合せ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z) - Simple Policy Optimization [15.66748378216631]
信頼地域政策最適化(Trust Region Policy Optimization, TRPO)は、信頼領域内の保守的な更新を通じて単調な政策改善を保証することで知られている。
PPO(Proximal Policy Optimization)は、TRPOのアプローチを単純化し、効率を向上するが、理論的な堅牢性を犠牲にすることで、この問題に対処する。
どちらの方法の長所を組み合わせられるだろうか?
本稿では,制約のない新しい1次アルゴリズムであるSimple Policy Optimization (SPO)を紹介する。
論文 参考訳(メタデータ) (2024-01-29T10:17:54Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。