論文の概要: Scalable Best-of-N Selection for Large Language Models via Self-Certainty
- arxiv url: http://arxiv.org/abs/2502.18581v1
- Date: Tue, 25 Feb 2025 19:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:50.628423
- Title: Scalable Best-of-N Selection for Large Language Models via Self-Certainty
- Title(参考訳): 自己確実性による大規模言語モデルのためのスケーラブルなベストオブN選択
- Authors: Zhewei Kang, Xuandong Zhao, Dawn Song,
- Abstract要約: Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
- 参考スコア(独自算出の注目度): 65.31658824274894
- License:
- Abstract: Best-of-N selection is a key technique for improving the reasoning performance of Large Language Models (LLMs) through increased test-time computation. Current state-of-the-art methods often employ computationally intensive reward models for response evaluation and selection. Reward-free alternatives, like self-consistency and universal self-consistency, are limited in their ability to handle open-ended generation tasks or scale effectively. To address these limitations, we propose self-certainty, a novel and efficient metric that leverages the inherent probability distribution of LLM outputs to estimate response quality without requiring external reward models. We hypothesize that higher distributional self-certainty, aggregated across multiple samples, correlates with improved response accuracy, as it reflects greater confidence in the generated output. Through extensive experiments on various reasoning tasks, we demonstrate that self-certainty (1) scales effectively with increasing sample size $N$, akin to reward models but without the computational overhead; (2) complements chain-of-thought, improving reasoning performance beyond greedy decoding; and (3) generalizes to open-ended tasks where traditional self-consistency methods fall short. Our findings establish self-certainty as a practical and efficient way for improving LLM reasoning capabilities. The code is available at https://github.com/backprop07/Self-Certainty
- Abstract(参考訳): LLM(Large Language Models)の推論性能を向上させる手法として,テスト時間計算の高速化によるBest-of-N選択法がある。
現在の最先端の手法では、応答評価と選択に計算集約的な報酬モデルを用いることが多い。
自己整合性や普遍的自己整合性といったリワードフリーな代替手段は、オープンな生成タスクや効果的にスケールする能力に制限されている。
これらの制約に対処するために, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規かつ効率的な指標である自己確実性(self-certainty)を提案する。
複数のサンプルにまたがって集約された高分布自己確実性は、生成した出力に対する信頼性の向上を反映して、応答精度の向上と相関する、という仮説を立てる。
様々な推論タスクに関する広範な実験を通して,(1) 自己確実性は,モデルに報酬を与えるが計算オーバーヘッドを伴わないサンプルサイズ$N$で効果的にスケールすること,(2) チェーン・オブ・ソートを補完すること,(3) 従来の自己整合性メソッドが不足するオープンエンドタスクに一般化すること,などを実証した。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
コードはhttps://github.com/backprop07/Self-Certaintyで入手できる。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - CREAM: Consistency Regularized Self-Rewarding Language Models [34.325289477993586]
自己回帰型大規模言語モデル (LLM) は, 優先データに対する人間のアノテーションを必要とせずに, LLM-as-a-Judge を用いてアライメント性能を向上させることに成功した。
しかし、報酬とランキングの正確性は保証されていないため、精度の高い報酬と高品質な選好データを保証するのに不可欠である。
本稿では,各イテレーション間の報酬整合性を利用して自己回帰訓練を規則化する一貫性正規化sElf-rewarding lAnguage Model (CREAM)を提案する。
論文 参考訳(メタデータ) (2024-10-16T16:51:01Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Model Cascading for Code: A Cascaded Black-Box Multi-Model Framework for Cost-Efficient Code Completion with Self-Testing [20.445496441396028]
本稿では,モデルカスケーディングと推論時自己テストアルゴリズムを組み合わせた新しいフレームワークを提案する。
このアプローチでは,自己生成テストを活用して精度を高め,モデルのカスケード決定を評価する。
実験結果から, カスケード手法はコストを平均26%削減し, ベストケースでは最大70%削減できることがわかった。
論文 参考訳(メタデータ) (2024-05-24T16:20:04Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - (De-)Randomized Smoothing for Decision Stump Ensembles [5.161531917413708]
ツリーベースモデルは、金融や医療など、多くの高度なアプリケーションドメインで使われている。
本稿では,決定スタンプアンサンブルに対する決定論的スムース化を提案する。
決定論的ロバスト性証明は,数値的特徴と分類的特徴を併せ持つものである。
論文 参考訳(メタデータ) (2022-05-27T11:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。