Fugu-MT 論文翻訳(概要): Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks

論文の概要: Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks

arxiv url: http://arxiv.org/abs/2505.20047v1
Date: Mon, 26 May 2025 14:34:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.513852
Title: Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
Title（参考訳）: 形式的不確かさの文法:自動推論タスクにおけるLCMを信頼する時
Authors: Debargha Ganguly, Vikash Singh, Sreehari Sankar, Biyao Zhang, Xuecen Zhang, Srinivasan Iyengar, Xiaotian Han, Amit Sharma, Shivkumar Kalyanaraman, Vipin Chaudhary,
Abstract要約: 大きな言語モデル(LLM)は、正式な仕様を生成することで自動推論の民主化を約束する。 LLM出力をモデル化するための確率論的文脈自由文法(PCFG)フレームワークを導入する。最後に、これらの信号の軽量な融合により、選択的な検証が可能となり、最小の棄権でエラーを劇的に削減する(14100%)。
参考スコア（独自算出の注目度）: 12.436681393835626
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) show remarkable promise for democratizing automated reasoning by generating formal specifications. However, a fundamental tension exists: LLMs are probabilistic, while formal verification demands deterministic guarantees. This paper addresses this epistemological gap by comprehensively investigating failure modes and uncertainty quantification (UQ) in LLM-generated formal artifacts. Our systematic evaluation of five frontier LLMs reveals Satisfiability Modulo Theories (SMT) based autoformalization's domain-specific impact on accuracy (from +34.8% on logical tasks to -44.5% on factual ones), with known UQ techniques like the entropy of token probabilities failing to identify these errors. We introduce a probabilistic context-free grammar (PCFG) framework to model LLM outputs, yielding a refined uncertainty taxonomy. We find uncertainty signals are task-dependent (e.g., grammar entropy for logic, AUROC>0.93). Finally, a lightweight fusion of these signals enables selective verification, drastically reducing errors (14-100%) with minimal abstention, transforming LLM-driven formalization into a reliable engineering discipline.
Abstract（参考訳）: 大きな言語モデル(LLM)は、正式な仕様を生成することで自動推論の民主化を約束する。 LLMは確率的であり、正式な検証は決定論的保証を要求する。本稿は, LLM生成形式アーティファクトにおける故障モードと不確実性定量化(UQ)を包括的に検討することによって, この認識的ギャップに対処する。 5つのフロンティア LLM の体系的評価では、SMT に基づく自己形式化の精度への影響(論理的タスクの+34.8%から現実的タスクの-44.5%)が明らかであり、トークン確率のエントロピーのような既知のUQ技術はこれらの誤りを識別できない。 LLM出力をモデル化するための確率論的文脈自由文法(PCFG)フレームワークを導入する。不確実性信号はタスク依存である(例えば、論理の文法エントロピー、AUROC>0.93)。最後に、これらの信号の軽量な融合により、選択的検証が可能となり、最小限の棄却でエラー(14-100%)を大幅に削減し、LCM駆動の形式化を信頼性の高いエンジニアリング分野に変換する。

関連論文リスト

Faithful and Robust LLM-Driven Theorem Proving for NLI Explanations [13.485604499678262]
自然言語推論(NLI)における自然言語説明の役割近年の研究では、大言語モデル(LLM)と定理証明器(TP)の相互作用が、NLI説明の有効性の検証と改善に役立つことが示されている。本稿では,自己形式化時の意味喪失を軽減するための戦略について検討する。
論文参考訳（メタデータ） (2025-05-30T06:38:39Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-06-29T17:33:07Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-01T12:52:06Z)
Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文参考訳（メタデータ） (2024-05-30T12:42:05Z)
Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。本稿では,LLMのための不確実性分解フレームワークについて述べる。提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文参考訳（メタデータ） (2023-11-15T05:58:35Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve [21.55766758950951]
我々は、単語予測タスクを解決するために、大規模言語モデルが採用する戦略について予測する。 11 つのタスクで 2 つの LLM を評価し,LLM が確率の影響を受けていることを示す。我々は、LSMをまるで人間であるかのように評価するのではなく、異なるタイプのシステムとして扱うべきだと結論付けている。
論文参考訳（メタデータ） (2023-09-24T13:35:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。