論文の概要: A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling
- arxiv url: http://arxiv.org/abs/2510.04087v1
- Date: Sun, 05 Oct 2025 08:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.448268
- Title: A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling
- Title(参考訳): 信頼度と高能率N値サンプリングのための文脈品質リワードモデル
- Authors: Hyung Gyu Rho,
- Abstract要約: ベスト・オブ・Nサンプリングのような現代の選好アライメント技術は、ペア比較データで訓練された報酬モデルに依存している。
この重要な信頼性ギャップに対処するために、新しいデータ収集およびモデリングフレームワークを導入します。
本研究では,アライメントガードレールとして調整した場合,信頼性障害を70%削減し,推論アクセラレーションとして調整した場合,IMDB感度設定において平均推定速度を22%以上向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern preference alignment techniques, such as Best-of-N (BoN) sampling, rely on reward models trained with pairwise comparison data. While effective at learning relative preferences, this paradigm fails to capture a signal of response acceptability, leaving systems vulnerable to selecting the least bad of many unacceptable options. This is particularly problematic for hard prompts, where the risk of such false acceptances increases with the number of samples. In this paper, we address this critical reliability gap by introducing a new data collection and modeling framework. By augmenting preference data with an outside option, inspired by discrete choice models, we train a reward model that can distinguish not just what is \textit{better}, but what is \textit{good enough}. We leverage this capability to create an adaptive inference strategy, best of mini-N in-loop, which partitions the generation budget into sequential loops with a calibrated, early-exit condition. Our experiments show that when tuned as an alignment guardrail, it reduces reliability failures by 70\%, and when tuned as an inference accelerator, it improves average inference speed by over 22\% in IMDB-sentiment setting. We thus provide a principled and flexible framework for practitioners to explicitly manage the trade-off between reliability and computational efficiency.
- Abstract(参考訳): ベスト・オブ・N(BoN)サンプリングのような現代の選好アライメント技術は、ペア比較データで訓練された報酬モデルに依存している。
相対的な選好を学ぶのに効果的であるが、このパラダイムは応答の許容可能性のシグナルを捉えず、システムは許容できない多くの選択肢の最も悪いものを選択することに脆弱なままである。
このような誤認のリスクがサンプル数とともに増加するハードプロンプトには特に問題となる。
本稿では,新しいデータ収集・モデリングフレームワークを導入することにより,この重要な信頼性ギャップに対処する。
個別選択モデルにインスパイアされた、外部オプションで好みデータを拡張することで、私たちは、単に \textit{better} であるだけでなく、 \textit{good enough} であるものを区別できる報酬モデルをトレーニングします。
我々は、この能力を活用して適応的推論戦略、つまりミニNインループを作成し、これにより生成予算を調整済みの早期終了条件付きシーケンシャルループに分割する。
実験の結果,アライメントガードレールとして調整した場合,信頼性障害を70%低減し,推論アクセラレーションとして調整した場合,IMDB感度設定において平均推定速度を22倍以上向上することがわかった。
そこで我々は,信頼性と計算効率のトレードオフを明確に管理するための,原則的かつ柔軟なフレームワークを提供する。
関連論文リスト
- LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。
絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。
分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文 参考訳(メタデータ) (2025-10-01T12:52:25Z) - Optimizing Asynchronous Federated Learning: A~Delicate Trade-Off Between Model-Parameter Staleness and Update Frequency [0.9999629695552195]
我々は、非同期FLアルゴリズムにおける設計選択の影響をよりよく理解するために、モデリングと分析を用いる。
非同期FLを最適化するための基本的なトレードオフを特徴付ける。
これらの最適化は精度を10%から30%向上させる。
論文 参考訳(メタデータ) (2025-02-12T08:38:13Z) - InfAlign: Inference-aware language model alignment [58.66389179049758]
言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおける重要なステップである。
この列車/テストのミスマッチは、推論時間法の観点から標準のRLHFフレームワークを最適化することを示す。
本稿では,ベースモデルに対するアライメントポリシーの予測時間勝利率を最適化することを目的とした,推論対応アライメント(InfAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-27T18:45:36Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Contrastive Neural Ratio Estimation for Simulation-based Inference [15.354874711988662]
Likelihood-to-evidence ratio Estimation は通常、バイナリ (NRE-A) またはマルチクラス (NRE-B) の分類タスクとしてキャストされる。
バイナリ分類フレームワークとは対照的に、現在のマルチクラスバージョンの定式化は本質的で未知のバイアス項を持つ。
我々は,NRE-Bに固有のバイアスを最適に含まないマルチクラスフレームワークを提案し,実践者が依存する診断を行う立場に置かれる。
論文 参考訳(メタデータ) (2022-10-11T00:12:51Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。