論文の概要: Aligning LLMs on a Budget: Inference-Time Alignment with Heuristic Reward Models
- arxiv url: http://arxiv.org/abs/2508.05165v1
- Date: Thu, 07 Aug 2025 08:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.773674
- Title: Aligning LLMs on a Budget: Inference-Time Alignment with Heuristic Reward Models
- Title(参考訳): 予算上のLCMのアライメント:ヒューリスティック・リワードモデルによる推定時間アライメント
- Authors: Mason Nakamura, Saaduddin Mahmud, Kyle H. Wray, Hamed Zamani, Shlomo Zilberstein,
- Abstract要約: HIA(Heuristic-Guided Inference-time Alignment)は,軽量プロンプトを用いたチューニング不要でブラックボックス互換のアプローチである。
HIAは1つまたは2つの応答クエリの少ない低推論予算下で有効であることが判明した。
- 参考スコア(独自算出の注目度): 23.37504394417425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning LLMs with user preferences is crucial for real-world use but often requires costly fine-tuning or expensive inference, forcing trade-offs between alignment quality and computational cost. Existing inference-time methods typically ignore this balance, focusing solely on the optimized policy's performance. We propose HIA (Heuristic-Guided Inference-time Alignment), a tuning-free, black-box-compatible approach that uses a lightweight prompt optimizer, heuristic reward models, and two-stage filtering to reduce inference calls while preserving alignment quality. On real-world prompt datasets, HelpSteer and ComPRed, HIA outperforms best-of-N sampling, beam search, and greedy search baselines in multi-objective, goal-conditioned tasks under the same inference budget. We also find that HIA is effective under low-inference budgets with as little as one or two response queries, offering a practical solution for scalable, personalized LLM deployment.
- Abstract(参考訳): ユーザ好みのLCMの調整は、現実世界での使用には不可欠であるが、高額な微調整や高価な推論を必要とし、アライメント品質と計算コストのトレードオフを強いる。
既存の推論時メソッドはこのバランスを無視し、最適化されたポリシーのパフォーマンスにのみ焦点をあてる。
HIA(Huristic-Guided Inference-time Alignment)は、軽量なプロンプトオプティマイザ、ヒューリスティック報酬モデル、および2段階フィルタリングを用いて、アライメント品質を維持しつつ、推論呼び出しを減らすためのチューニング不要でブラックボックス互換のアプローチである。
実世界のプロンプトデータセットであるHelpSteerとComPRedでは、HIAは同じ推論予算の下で、多目的で目標条件のタスクにおいて、ベスト・オブ・Nサンプリング、ビームサーチ、およびグレディ検索ベースラインを上回っている。
また、HIAは1つまたは2つの応答クエリの少ない低推論予算の下で有効であり、スケーラブルでパーソナライズされたLLMデプロイメントのための実用的なソリューションを提供する。
関連論文リスト
- Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Dynamically Learned Test-Time Model Routing in Language Model Zoos with Service Level Guarantees [21.2175476090125]
オープンウェイトなLLM動物園は、多くの高品質なモデルへのアクセスを提供する。
ほとんどのユーザーは、モデル技術に気を使わずに、事実的正確で安全で満足な応答を欲しがっている。
本稿では,コスト-最適要求ルーティングのためのコスト-最適最適化アルゴリズムであるMESS+を紹介する。
論文 参考訳(メタデータ) (2025-05-26T13:11:08Z) - ABoN: Adaptive Best-of-N Alignment [19.22348775001393]
Inference-time計算をより効率的に割り当てるBest-of-Nアライメントのためのプロンプト適応戦略を提案する。
我々の手法はシンプルで実用的で、どのLM/RM組み合わせとも互換性がある。
論文 参考訳(メタデータ) (2025-05-17T15:24:48Z) - DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。
modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。
AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文 参考訳(メタデータ) (2025-03-06T09:21:54Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。
$SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。
評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - OptLLM: Optimal Assignment of Queries to Large Language Models [12.07164196530872]
大規模言語モデル(LLM)における費用効率の高いクエリ割り当て問題に対処するフレームワークを提案する。
当社のフレームワークであるOpsLLMは、ユーザに対して、予算の制約やパフォーマンスの優先事項に合わせて、選択可能なさまざまな最適なソリューションを提供します。
OptLLMの有効性を評価するため,テキスト分類,質問応答,感情分析,推論,ログ解析など,さまざまなタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-05-24T01:05:37Z) - Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。
VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。
我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文 参考訳(メタデータ) (2024-05-10T17:59:04Z) - Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
ヒューマンフィードバック(RLHF)からの強化学習を用いた大規模言語モデル(LLM)のアライメント
状況の均一なサンプリングは、最適政策と一定の準最適差を被る政策につながる可能性があることを示す。
我々は,最も不確実なコンテキストに対する嗜好を反復的に収集するアルゴリズムである$textttAPO$を提案する。
論文 参考訳(メタデータ) (2024-02-16T08:19:34Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。