論文の概要: Temper and Tilt Lead to SLOP: Reward Hacking Mitigation with Inference-Time Alignment
- arxiv url: http://arxiv.org/abs/2605.13537v1
- Date: Wed, 13 May 2026 13:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.081955
- Title: Temper and Tilt Lead to SLOP: Reward Hacking Mitigation with Inference-Time Alignment
- Title(参考訳): Temper and TiltがSLOPに到達 - 推論時間アライメントによるリワードハック
- Authors: Ye Wang, Jing Liu, Toshiaki Koike-Akino,
- Abstract要約: 推論時間アライメント技術は、軽量な代替手段を提供するか、コストのかかる強化学習を補完する。
基準モデル温度調整を導入することで,これらの手法を拡張した。
ハッキングに対する報奨として,SLOP重みパラメータを校正するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 20.603753314256704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-time alignment techniques offer a lightweight alternative or complement to costly reinforcement learning, while enabling continual adaptation as alignment objectives and reward targets evolve. Existing theoretical analyses justify these methods as approximations to sampling from distributions optimally tilted toward a given reward model. We extend these techniques by introducing reference-model temperature adjustment, which leads to further generalization of inference-time alignment to ensembles of generative reward models combined as a sharpened logarithmic opinion pool (SLOP). To mitigate reward hacking, we propose an algorithm for calibrating SLOP weight parameters and experimentally demonstrate that it improves robustness while preserving alignment performance.
- Abstract(参考訳): 推論時間アライメント技術は、コストのかかる強化学習の軽量な代替手段または補完手段を提供すると同時に、アライメント目的や報酬目標として継続的な適応を可能にする。
既存の理論的解析は、与えられた報酬モデルに向かって最適に傾いた分布からサンプリングする近似としてこれらの手法を正当化する。
これらの手法は参照モデル温度調整を導入して拡張され、それによって推論時間アライメントがより一般化され、生成的報酬モデルのアンサンブルが、よりシャープな対数的世論プール(SLOP)として組み合わされる。
報奨ハッキングを緩和するために,SLOP重みパラメータを校正するアルゴリズムを提案し,アライメント性能を保ちながらロバスト性を向上させることを実験的に実証した。
関連論文リスト
- On the Role of Batch Size in Stochastic Conditional Gradient Methods [51.97510367368799]
条件勾配法におけるバッチサイズの役割を,$-KL条件下で検討した。
バッチサイズの増加は、当初は最適化の精度を向上するが、重要なしきい値を超えると、固定トークン予算の下でのメリットと飽和度は、パフォーマンスを劣化させる可能性がある。
論文 参考訳(メタデータ) (2026-03-22T12:23:41Z) - Best-of-Tails: Bridging Optimism and Pessimism in Inference-Time Alignment [20.579613395916024]
推論時間アライメントは、参照モデルから複数の候補を生成し、それらの中から不完全な報酬モデルを選択することで、大きな言語モデルを効果的に操縦する。
最適戦略は報酬分布の尾の挙動に大きく依存することを示す。
適応型推論時間アライメントフレームワークであるBest-of-Tails (BoT)を導入する。
論文 参考訳(メタデータ) (2026-03-06T19:00:54Z) - Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。
理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文 参考訳(メタデータ) (2026-02-08T00:09:40Z) - Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training [29.56905427210088]
Gragient-ARMは、好みのフィードバックから強化学習を使用するルーリックジェネレータとジャッジを共同で最適化するフレームワークである。
ベンチマークのベースライン間で、勾配-ARMは最先端のパフォーマンスを達成し、オフラインおよびオンラインの強化学習設定において、ダウンストリームポリシーアライメントを大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-02T00:50:53Z) - Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning [27.33241821967005]
本稿では,PMC(Preference Mode Collapse)を緩和する新しいフレームワークを提案する。
D$2$-Alignは、人間の好みと優れた整合性を達成する。
論文 参考訳(メタデータ) (2025-12-30T11:17:52Z) - Psi-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models [26.211711150915203]
$Psi$-Samplerは、pCNLベースの初期粒子サンプリングを組み込んだSMCベースのフレームワークである。
スコアベース生成モデルとの推論時間報酬アライメントは、大きな注目を集めている。
論文 参考訳(メタデータ) (2025-06-02T05:02:33Z) - InfAlign: Inference-aware language model alignment [58.66389179049758]
言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおける重要なステップである。
この列車/テストのミスマッチは、推論時間法の観点から標準のRLHFフレームワークを最適化することを示す。
本稿では,ベースモデルに対するアライメントポリシーの予測時間勝利率を最適化することを目的とした,推論対応アライメント(InfAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-27T18:45:36Z) - Enhancing Fairness through Reweighting: A Path to Attain the Sufficiency Rule [23.335423207588466]
モデルトレーニングにおける経験的リスク最小化プロセスを強化するための革新的なアプローチを導入する。
このスキームは、最適予測器が多様なサブグループ間で整合性を維持することを保証することによって、公正性における十分性規則を維持することを目的としている。
論文 参考訳(メタデータ) (2024-08-26T09:19:58Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。