論文の概要: Best of mini-N in-loop Sampling: A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling
- arxiv url: http://arxiv.org/abs/2510.04087v2
- Date: Fri, 10 Oct 2025 21:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 13:29:55.627412
- Title: Best of mini-N in-loop Sampling: A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling
- Title(参考訳): ミニNインループサンプリングのベスト:信頼性と高効率なNサンプリングのためのコンテキスト品質リワードモデル
- Authors: Hyung Gyu Rho, Sian Lee,
- Abstract要約: ベスト・オブ・Nサンプリングのような現代の選好アライメント技術は、ペア比較データで訓練された報酬モデルに依存している。
この重要な信頼性ギャップに対処するために、新しいデータ収集およびモデリングフレームワークを導入します。
また,アライメントガードレールとして調整した場合,信頼性障害を70%低減し,推論アクセラレータとして調整した場合,平均推定速度を22%以上向上することを示した。
- 参考スコア(独自算出の注目度): 0.14323566945483493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern preference alignment techniques, such as Best-of-N (BoN) sampling, rely on reward models trained with pairwise comparison data. While effective at learning relative preferences, this paradigm fails to capture a signal of response acceptability, leaving systems vulnerable to selecting the least bad of many unacceptable options. This is particularly problematic for hard prompts, where the risk of such false acceptances increases with the number of samples. In this paper, we address this critical reliability gap by introducing a new data collection and modeling framework. By augmenting preference data with an outside option, inspired by discrete choice models, we train a reward model that can distinguish not just what is better, but what is good enough. We leverage this capability to create an adaptive inference strategy, best of mini-N in-loop, which partitions the generation budget into sequential loops with a calibrated, early-exit condition. Our experiments show that when tuned as an alignment guardrail, it reduces reliability failures by 70%, and when tuned as an inference accelerator, it improves average inference speed by over 22% in IMDB-sentiment setting. We thus provide a principled and flexible framework for practitioners to explicitly manage the trade-off between reliability and computational efficiency.
- Abstract(参考訳): ベスト・オブ・N(BoN)サンプリングのような現代の選好アライメント技術は、ペア比較データで訓練された報酬モデルに依存している。
相対的な選好を学ぶのに効果的であるが、このパラダイムは応答の許容可能性のシグナルを捉えず、システムは許容できない多くの選択肢の最も悪いものを選択することに脆弱なままである。
このような誤認のリスクがサンプル数とともに増加するハードプロンプトには特に問題となる。
本稿では,新しいデータ収集・モデリングフレームワークを導入することにより,この重要な信頼性ギャップに対処する。
選好データを外部オプションで強化することで、個別の選択モデルにインスパイアされた私たちは、良いものだけでなく、十分良いものも区別できる報酬モデルをトレーニングします。
我々は、この能力を活用して適応的推論戦略、つまりミニNインループを作成し、これにより生成予算を調整済みの早期終了条件付きシーケンシャルループに分割する。
実験の結果,アライメントガードレールとして調整した場合,信頼性障害を70%低減し,推論アクセラレーションとして調整した場合,IMDB感度設定で平均推定速度を22%以上向上することがわかった。
そこで我々は,信頼性と計算効率のトレードオフを明確に管理するための,原則的かつ柔軟なフレームワークを提供する。
関連論文リスト
- Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.73663884421272]
より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。
FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。
FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な "ルーラー" の提供を目指す。
論文 参考訳(メタデータ) (2026-02-28T05:41:57Z) - Efficient Adaptive Rejection Sampling for Accelerating Speculative Decoding in Large Language Models [2.4065240342323384]
本稿では, 適応型リジェクションサンプリング(EARS)について紹介する。
EARSは、ターゲットモデルの予測不確かさを1-max(P_target)として組み込むことで、受入閾値を動的に調整する。
投機的復号化の効率を大幅に向上させ、18.12%のスループット向上を実現し、GSM8Kベンチマークでは0.84%の精度低下を無視できる。
論文 参考訳(メタデータ) (2025-12-15T11:08:56Z) - Robust Preference Alignment via Directional Neighborhood Consensus [13.313830197011983]
本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。
RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:39:20Z) - LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。
絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。
分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文 参考訳(メタデータ) (2025-10-01T12:52:25Z) - More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。
我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。
選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文 参考訳(メタデータ) (2025-04-03T00:36:40Z) - Optimizing Asynchronous Federated Learning: A~Delicate Trade-Off Between Model-Parameter Staleness and Update Frequency [0.9999629695552195]
我々は、非同期FLアルゴリズムにおける設計選択の影響をよりよく理解するために、モデリングと分析を用いる。
非同期FLを最適化するための基本的なトレードオフを特徴付ける。
これらの最適化は精度を10%から30%向上させる。
論文 参考訳(メタデータ) (2025-02-12T08:38:13Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - InfAlign: Inference-aware language model alignment [58.66389179049758]
言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおける重要なステップである。
この列車/テストのミスマッチは、推論時間法の観点から標準のRLHFフレームワークを最適化することを示す。
本稿では,ベースモデルに対するアライメントポリシーの予測時間勝利率を最適化することを目的とした,推論対応アライメント(InfAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-27T18:45:36Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Contrastive Neural Ratio Estimation for Simulation-based Inference [15.354874711988662]
Likelihood-to-evidence ratio Estimation は通常、バイナリ (NRE-A) またはマルチクラス (NRE-B) の分類タスクとしてキャストされる。
バイナリ分類フレームワークとは対照的に、現在のマルチクラスバージョンの定式化は本質的で未知のバイアス項を持つ。
我々は,NRE-Bに固有のバイアスを最適に含まないマルチクラスフレームワークを提案し,実践者が依存する診断を行う立場に置かれる。
論文 参考訳(メタデータ) (2022-10-11T00:12:51Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。