論文の概要: Real-Time Trustworthiness Scoring for LLM Structured Outputs and Data Extraction
- arxiv url: http://arxiv.org/abs/2603.18014v1
- Date: Tue, 24 Feb 2026 09:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.387401
- Title: Real-Time Trustworthiness Scoring for LLM Structured Outputs and Data Extraction
- Title(参考訳): LLM構造化出力のリアルタイム信頼性スコアリングとデータ抽出
- Authors: Hui Wen Goh, Jonas Mueller,
- Abstract要約: 構造化出力の信頼性をリアルタイムに評価する手法を提案する。
また、ミスに満ちていない信頼性の高い基底真理値を持つ最初の公開ベンチマークの1つを提示する。
- 参考スコア(独自算出の注目度): 4.66261113599649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured Outputs from current LLMs exhibit sporadic errors, hindering enterprise AI efforts from realizing their immense potential. We present CONSTRUCT, a method to score the trustworthiness of LLM Structured Outputs in real-time, such that lower-scoring outputs are more likely to contain errors. This reveals the best places to focus limited human review bandwidth. CONSTRUCT additionally scores the trustworthiness of each field within a LLM Structured Output, helping reviewers quickly identify which parts of the output are wrong. Our method is suitable for any LLM (including black-box LLM APIs without logprobs such as reasoning models and Anthropic models), does not require labeled training data nor custom model deployment, and works for complex Structured Outputs with many fields of diverse types (including nested JSON schemas). We additionally present one of the first public LLM Structured Output benchmarks with reliable ground-truth values that are not full of mistakes. Over this four-dataset benchmark, CONSTRUCT detects errors from various LLMs (including Gemini 3 and GPT-5) with significantly higher precision/recall than other scoring methods.
- Abstract(参考訳): 現在のLLMの構造化出力は散発的なエラーを示し、エンタープライズAIの取り組みがその潜在能力を実現するのを妨げる。
本研究では,LLM構造出力の信頼性をリアルタイムに評価する方法であるConSTRUCTについて述べる。
これは、人間のレビューの帯域幅を制限するのに最適な場所を明らかにします。
コンストラクトはまた、LLM構造化アウトプット内の各フィールドの信頼性をスコア付けし、レビュアーがアウトプットのどの部分が間違っているかを素早く特定するのに役立つ。
提案手法は,任意のLLM(推論モデルや人為的モデルなど,ログプロブのないブラックボックス LLM APIを含む)に適しており,ラベル付きトレーニングデータやカスタムモデルデプロイメントは必要とせず,多種多様な分野(ネストされたJSONスキーマを含む)で複雑な構造化出力で動作する。
我々はまた、誤りに満ちていない信頼性の高い基底真理値を持つ、最初のパブリックなLLM構造化出力ベンチマークの1つを提示する。
この4つのデータセットのベンチマークで、CONSTRUCTは様々なLSM(ジェミニ3やGPT-5など)の誤差を、他のスコアリング手法よりもはるかに高精度に検出する。
関連論文リスト
- Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models [10.684722193666607]
本稿では,信頼度の高い大規模言語モデル (LLM) の出力をアグリゲーションによって検出する新しい手法であるREQUAL-LMを紹介する。
具体的には、繰り返しサンプリングに基づくモンテカルロ法を開発し、可能な出力の基底分布の平均に近い信頼性のある出力を求める。
信頼性とバイアスといった用語を正式に定義し、信頼性の高いアウトプットを見つけながら有害なバイアスを最小限に抑えるために、株式を意識したアグリゲーションを設計する。
論文 参考訳(メタデータ) (2024-04-17T22:12:41Z) - MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。
GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。
評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。