論文の概要: Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.18871v1
- Date: Fri, 15 May 2026 17:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.759647
- Title: Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning
- Title(参考訳): 不確実性を考慮した構造LDM推論のための分布エネルギーモデル
- Authors: Shireen Kudukkil Manchingal, Abhey Kalia, Fernanda Gonçalves, Shebin Rawther,
- Abstract要約: 大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
- 参考スコア(独自算出の注目度): 40.342912574072024
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: When Large Language Models produce structured outputs such as travel plans, code solutions, or multi-step proofs, individual reasoning steps may appear correct while the output as a whole violates budgets, fails test cases, or contradicts earlier deductions. We propose a decomposed energy function that combines a learned quality scorer with deterministic analytical constraint penalties for verifying structured LLM outputs. The quality scorer is a heterogeneous ensemble of low-rank adapters on a single frozen encoder (3% trainable parameters); the ensemble mean ranks candidates while the standard deviation quantifies epistemic uncertainty, driving a two-pass inference loop that triggers targeted regeneration or abstention. Across five benchmarks (GSM8K, MuSR, TravelPlanner, TACO, Knights & Knaves), our 149M-parameter verifier orchestrating a pool of 7-26B open generators outperforms single-shot Qwen-72B on every benchmark, matches Claude Sonnet 4.6 on MuSR (67.7% vs. 68.0%), and reduces constraint violations by 53% relative to Opus 4.6 on TravelPlanner (oracle 0.028, random 0.231). The two routes are complementary: structural verification wins when constraints are checkable (the verifier captures signal frontier models cannot self-detect), while pretraining-scale priors win where they are not (narrative inference, code semantics). A cross-dataset confounding analysis confirms genuine quality discrimination on four reasoning tasks and identifies a model-identity shortcut on code, mitigated via last-layer retraining. Scorers trained on difficult data transfer zero-shot: a MuSR-trained scorer achieves 93.9% on GSM8K without seeing a math problem.
- Abstract(参考訳): 大規模言語モデルが旅行計画やコードソリューション、マルチステップの証明のような構造化されたアウトプットを生成する場合、個々の推論ステップは正しいように見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の演目と矛盾する場合がある。
本稿では,学習した品質スコアラと決定論的解析的制約ペナルティを組み合わせた分解エネルギー関数を提案する。
品質スコアラは、単一の凍結エンコーダ(3%のトレーニング可能なパラメータ)上の低ランクアダプタの不均一なアンサンブルであり、アンサンブル平均は候補をランク付けし、標準偏差はてんかんの不確実性を定量化し、ターゲット再生または停止をトリガーする2パス推論ループを駆動する。
5つのベンチマーク(GSM8K, MuSR, TravelPlanner, TACO, Knights & Knaves)にまたがって、我々の149Mパラメーター検証器は、7-26Bのオープンジェネレータのプールを編成し、各ベンチマークでシングルショットのQwen-72Bを上回り、MSRのClaude Sonnet 4.6(67.7%対68.0%)と一致し、TravelPlannerのOpus 4.6と比較して制約違反を53%減らした。
2つの経路は相補的であり、制約がチェック可能なときに構造的検証が勝利する(検証者は信号フロンティアモデルを自己検出できない)。
クロスデータセット・コンバウンディング分析は、4つの推論タスクにおける真の品質識別を確認し、最終層再トレーニングによって緩和されたコード上のモデル同一性ショートカットを識別する。
MuSRで訓練されたスコアラーは数学の問題を見ずにGSM8Kで93.9%を達成した。
関連論文リスト
- ReFlect: An Effective Harness System for Complex Long-Horizon LLM Reasoning [5.523132953818281]
本稿では,LLM推論のためのシステムであるReFlectについて述べる。
6つの推論領域にまたがる制御された実験により、100個の監査された反射ブロックのうち90個の問題にフラグを付けない、プロンプトレベルの自己批判が公式テンプレートを生成することが示された。
我々のReFlectハーネスは, GPT-4o-miniで41%, Claude Sonnet 4.5で56%のタスク成功率を実現している。
論文 参考訳(メタデータ) (2026-05-07T06:29:34Z) - SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio [0.038379177968040606]
言語モデル推論のための単一パス不確実性フレームワークであるSELFDOUBTを提案する。
私たちのキーシグナルであるHedge-to-Verify Ratio(HVR)は、推論トレースが不確実性マーカーを含むかどうかを検出し、もしそうであれば、明示的な自己チェック行動によってオフセットされているかどうかを検出する。
SELFDOUBTは単一の観測された推論軌道で動作し、任意のプロプライエタリなAPI上でのレイテンシとコスト制約によるデプロイメントに適している。
論文 参考訳(メタデータ) (2026-04-07T19:19:29Z) - OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution [52.691495954442985]
CoVerRLは1つのモデルがジェネレータと検証ロールを交換するフレームワークで、各機能が他方をブートストラップする。
Qwen と Llama のモデルファミリーでの実験では、CoVerRL は数理推論のベンチマークで4.7-5.9% でラベルなしのベースラインを上回っている。
自己検証の精度は55%から85%以上改善され、両方の能力が真に共存することを確認した。
論文 参考訳(メタデータ) (2026-03-18T14:38:55Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。