論文の概要: From Stochastic Answers to Verifiable Reasoning: Interpretable Decision-Making with LLM-Generated Code
- arxiv url: http://arxiv.org/abs/2603.13287v1
- Date: Sat, 28 Feb 2026 00:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.269292
- Title: From Stochastic Answers to Verifiable Reasoning: Interpretable Decision-Making with LLM-Generated Code
- Title(参考訳): 確率的回答から検証可能な推論へ:LLM生成符号による解釈可能な決定過程
- Authors: Anirudh Jaidev Mahesh, Ben Griffin, Fuat Alican, Joseph Ternasky, Zakari Salifu, Kelvin Amoaba, Yagiz Ihlamur, Aaron Ontoyin Yin, Aikins Laryea, Afriyie Samuel, Yigit Ihlamur,
- Abstract要約: 大規模言語モデル(LLM)は、高い意思決定にますます使われている。
ブラックボックスモデルはそれらの推論を曖昧にし、最近のLCMベースのルールシステムはサンプル単位の評価に依存している。
我々は,LLMをインスタンスごとの評価器ではなくコードジェネレータとして再フレーミングすることを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used for high-stakes decision-making, yet existing approaches struggle to reconcile scalability, interpretability, and reproducibility. Black-box models obscure their reasoning, while recent LLM-based rule systems rely on per-sample evaluation, causing costs to scale with dataset size and introducing stochastic, hallucination-prone outputs. We propose reframing LLMs as code generators rather than per-instance evaluators. A single LLM call generates executable, human-readable decision logic that runs deterministically over structured data, eliminating per-sample LLM queries while enabling reproducible and auditable predictions. We combine code generation with automated statistical validation using precision lift, binomial significance testing, and coverage filtering, and apply cluster-based gap analysis to iteratively refine decision logic without human annotation. We instantiate this framework in venture capital founder screening, a rare-event prediction task with strong interpretability requirements. On VCBench, a benchmark of 4,500 founders with a 9% base success rate, our approach achieves 37.5% precision and an F0.5 score of 25.0%, outperforming GPT-4o (at 30.0% precision and an F0.5 score of 25.7%) while maintaining full interpretability. Each prediction traces to executable rules over human-readable attributes, demonstrating verifiable and interpretable LLM-based decision-making in practice.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高い意思決定にますます使われていますが、既存のアプローチでは、スケーラビリティ、解釈可能性、再現性の調整に苦労しています。
最近のLCMベースのルールシステムはサンプル単位の評価に依存しており、データセットのサイズに合わせてスケールし、確率的で幻覚的な出力を導入する。
我々は,LLMをインスタンスごとの評価器ではなくコードジェネレータとして再フレーミングすることを提案する。
単一のLLMコールは、構造化データ上で決定的に実行される実行可能な、人間可読な決定ロジックを生成し、再現可能で監査可能な予測を可能にしながら、サンプルごとのLLMクエリを排除します。
コード生成と、精度リフト、二項重み付けテスト、カバレッジフィルタリングを用いた自動統計的検証を組み合わせ、クラスタベースのギャップ分析を人間のアノテーションを使わずに反復的に洗練された決定論理に適用する。
我々は、この枠組みをベンチャーキャピタリストの検定において、強力な解釈可能性要件を備えた希少な予測タスクでインスタンス化する。
VCBenchは、9%の成功率で4500人の創業者をベンチマークし、37.5%の精度と25.0%のF0.5スコアを達成し、完全な解釈性を維持しながらGPT-4o(30.0%の精度と25.7%のF0.5スコア)を上回った。
各予測は、人間可読属性の実行可能なルールに辿り着き、実際にLLMベースの意思決定を検証し、解釈可能であることを示す。
関連論文リスト
- Confident Rankings with Fewer Items: Adaptive LLM Evaluation with Continuous Scores [25.638175689769934]
IRTベースの適応テストの原則的拡張を連続有界スコア(ROUGE, BLEU, LLM-as-a-Judge)に適用する。
本稿では,信頼性の高いモデルランキングを実現するための適応的停止基準付き不確実性意識ランクアを導入し,できるだけ少数の項目をテストする。
提案手法では,各項目の2%をランダムサンプリングよりも格付け相関を0.12改善し,95%の精度で信頼度予測を行う。
論文 参考訳(メタデータ) (2026-01-20T11:59:13Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - LLM-AR: LLM-powered Automated Reasoning Framework [0.0]
大規模言語モデル(LLM)はすでにパターンを識別し、推論を効果的に行うことができるが、その変動精度は高い意思決定アプリケーションで採用されている。
本稿では,LLM生成物をProbLog自動推論エンジンによって実行される確率的ルールに分解する,ニューラルシンボリックシステムにインスパイアされたパイプラインLLM-ARを紹介する。
LLM-ARは59.5%の精度と8.7%のリコールを達成し、5.9倍のランダムなベースライン精度を達成し、人間の検査のためのすべての決定経路を公開する。
論文 参考訳(メタデータ) (2025-10-24T21:36:18Z) - Clotho: Measuring Task-Specific Pre-Generation Test Adequacy for LLM Inputs [6.862079218077768]
特定のタスクで大規模言語モデルをテストするのは難しくてコストがかかります。
重要な課題は、タスクの要求を反映した方法で入力精度を評価することである。
タスク固有のプレジェネレーションアプライバシ尺度であるCLOTHOを導入する。
論文 参考訳(メタデータ) (2025-09-22T02:34:09Z) - A Judge-free LLM Open-ended Generation Benchmark Based on the Distributional Hypothesis [1.5802986215292303]
我々は,n-gram統計量と規則を用いた大規模言語モデル(LLM)を評価する新しいベンチマークを提案する。
質問50と参照回答セットを用いて,n-gramとルールに基づく3つの新しいメトリクスを導入する。
本ベンチマークはGPT-4oに基づく評価と相関するが,計算資源は著しく少ない。
論文 参考訳(メタデータ) (2025-02-13T13:30:54Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。