論文の概要: Best-of-Tails: Bridging Optimism and Pessimism in Inference-Time Alignment
- arxiv url: http://arxiv.org/abs/2603.06797v1
- Date: Fri, 06 Mar 2026 19:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.112734
- Title: Best-of-Tails: Bridging Optimism and Pessimism in Inference-Time Alignment
- Title(参考訳): ベスト・オブ・タイル:推論時間アライメントにおけるブリッジ・オプティミズムとペシミズム
- Authors: Hsiang Hsu, Eric Lei, Chun-Fu Chen,
- Abstract要約: 推論時間アライメントは、参照モデルから複数の候補を生成し、それらの中から不完全な報酬モデルを選択することで、大きな言語モデルを効果的に操縦する。
最適戦略は報酬分布の尾の挙動に大きく依存することを示す。
適応型推論時間アライメントフレームワークであるBest-of-Tails (BoT)を導入する。
- 参考スコア(独自算出の注目度): 20.579613395916024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time alignment effectively steers large language models (LLMs) by generating multiple candidates from a reference model and selecting among them with an imperfect reward model. However, current strategies face a fundamental dilemma: ``optimistic'' approaches like Best-of-$N$ suffer from reward hacking, while ``pessimistic'' regularized methods often stifle the exploration needed to discover high-quality responses. In this work, we formalize this trade-off through the lens of regret minimization, demonstrating that the optimal strategy depends critically on the tail behavior of the reward distribution. We show theoretically that light-tailed regimes favor optimism to unearth high-quality outliers, whereas heavy-tailed regimes require pessimism to guard against reward mis-calibration in the extremes. Guided by this insight, we introduce Best-of-Tails (BoT), an adaptive inference-time alignment framework that uses Tsallis divergence as a tunable regularizer to provide a finer granularity of interpolation between these extremes. BoT uses the Hill estimator to characterize reward-tail heaviness on a per-prompt basis and dynamically adjusts its selection rule to balance exploration gains against alignment error. Across math, multiple-choice reasoning, and human-preference evaluations, BoT improves alignment performance across a range of reference and reward model configurations relative to fixed-strategy baselines.
- Abstract(参考訳): 推論時間アライメントは、参照モデルから複数の候補を生成し、それらの中から不完全な報酬モデルを選択することで、大きな言語モデル(LLM)を効果的に操縦する。
しかし、現在の戦略は基本的なジレンマに直面している。例えばBest-of-N$のような‘optimistic’アプローチは報酬のハッキングに悩まされている。
本研究では,このトレードオフを後悔の最小化のレンズで定式化し,最適戦略が報酬分布のテール挙動に決定的に依存することを示す。
理論上、軽細な体制は高品質な不利な体制を打破する楽観主義を好んでおり、一方、重細な体制は極端における報酬の誤校正を防ぐために悲観主義を必要とする。
この知見に導かれたBest-of-Tails(BoT)は、Tsallisの発散を調整可能な正則化器として利用し、これらの極端間の補間のより詳細な粒度を提供する適応的推論時間アライメントフレームワークである。
BoTはヒル推定器を用いて1プロンプト当たりの報酬尾重みを特徴づけ、その選択規則を動的に調整し、アライメント誤差に対する探索利得のバランスをとる。
数学、多重選択推論、人為的嗜好評価などを通じて、BoTは、固定戦略ベースラインに対する参照モデルと報酬モデルの設定の範囲でのアライメント性能を改善している。
関連論文リスト
- Breaking the Curse of Repulsion: Optimistic Distributionally Robust Policy Optimization for Off-Policy Generative Recommendation [8.112649652437705]
この解決策は、ノイズの多い行動方針に絡み合った潜伏した高品質な分布を厳格に特定することにあると我々は主張する。
このDRO目標に対してハードフィルタが正確な解であることを証明するため,DRPOは発散雑音を厳密に排除しつつ,高品質な動作を最適に回復することができる。
論文 参考訳(メタデータ) (2026-02-11T02:18:27Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。