論文の概要: BEAVER: An Efficient Deterministic LLM Verifier
- arxiv url: http://arxiv.org/abs/2512.05439v1
- Date: Fri, 05 Dec 2025 05:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.909273
- Title: BEAVER: An Efficient Deterministic LLM Verifier
- Title(参考訳): BEAVER: 効率的な決定論的LLM検証
- Authors: Tarun Suresh, Nalin Wadhwa, Debangshu Banerjee, Gagandeep Singh,
- Abstract要約: 本稿では,大規模言語モデルに基づく決定論的,健全な確率境界を計算するための最初の実践的フレームワークBEAVERを提案する。
検証問題を形式化し、アプローチの健全性を証明し、BEAVERを正当性検証、プライバシ検証、セキュアなコード生成タスクで評価する。
- 参考スコア(独自算出の注目度): 11.949243456810263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) transition from research prototypes to production systems, practitioners often need reliable methods to verify that model outputs satisfy required constraints. While sampling-based estimates provide an intuition of model behavior, they offer no sound guarantees. We present BEAVER, the first practical framework for computing deterministic, sound probability bounds on LLM constraint satisfaction. Given any prefix-closed semantic constraint, BEAVER systematically explores the generation space using novel token trie and frontier data structures, maintaining provably sound bounds at every iteration. We formalize the verification problem, prove soundness of our approach, and evaluate BEAVER on correctness verification, privacy verification and secure code generation tasks across multiple state of the art LLMs. BEAVER achieves 6 to 8 times tighter probability bounds and identifies 3 to 4 times more high risk instances compared to baseline methods under identical computational budgets, enabling precise characterization and risk assessment that loose bounds or empirical evaluation cannot provide.
- Abstract(参考訳): 大規模言語モデル(LLM)が研究プロトタイプから本番システムへ移行するにつれて、モデル出力が要求される制約を満たすことを検証するための信頼性の高い方法がしばしば必要となる。
サンプリングに基づく推定はモデルの振舞いの直感を与えるが、音の保証は提供しない。
本稿では, LLM制約満足度に基づく決定論的, 健全な確率境界を計算するための最初の実践的フレームワークBEAVERを提案する。
プレフィックスを閉じたセマンティック制約が与えられた場合、BEAVERは、新しいトークントリエとフロンティアデータ構造を使用して、生成空間を体系的に探索し、各イテレーションで確実にサウンドバウンドを維持する。
我々は、検証問題を形式化し、我々のアプローチの健全さを証明し、BEAVERを複数の最先端LCMにわたる正確性検証、プライバシ検証、セキュアなコード生成タスクで評価する。
BEAVERは6倍から8倍の確率境界を達成し、同じ計算予算の下でのベースライン手法に比べて3倍から4倍高いリスクインスタンスを特定し、緩い境界や経験的評価が提供できないような正確な評価とリスク評価を可能にする。
関連論文リスト
- Random-Set Large Language Models [4.308457163593758]
大規模言語モデル(LLM)は、クエリに対する非常に高品質なテストとレスポンスを生成することで知られています。
しかし、この生成されたテキストはいくら信用できますか?
本稿では,トークン空間上の有限ランダム集合(関数)を予測するランダムセット大言語モデル(RSLLM)を提案する。
論文 参考訳(メタデータ) (2025-04-25T05:25:27Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。
自然言語生成からコード生成領域への2つの最先端技術を適用する。
これらの手法を用いて計算した不確実性と正確性との間には強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T10:03:01Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Learning with Safety Constraints: Sample Complexity of Reinforcement
Learning for Constrained MDPs [13.922754427601491]
我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。
我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
論文 参考訳(メタデータ) (2020-08-01T18:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。