論文の概要: Semantic Layers for Reliable LLM-Powered Data Analytics: A Paired Benchmark of Accuracy and Hallucination Across Three Frontier Models
- arxiv url: http://arxiv.org/abs/2604.25149v1
- Date: Tue, 28 Apr 2026 02:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.680219
- Title: Semantic Layers for Reliable LLM-Powered Data Analytics: A Paired Benchmark of Accuracy and Hallucination Across Three Frontier Models
- Title(参考訳): 信頼性 LLM を用いたデータ分析のための意味層:3つのフロンティアモデル間の精度と幻覚のベンチマーク
- Authors: Michael Rumiantsau, Ivan Fokeev,
- Abstract要約: 解析データベースの自然言語クエリ用にデプロイされたLLMは、2つの障害に悩まされる。
ClickHouseのCleaned Contoso Retailデータセットに対して,100の自然言語質問に対して,3つのフロンティアLSMをベンチマークした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs deployed for natural-language querying of analytical databases suffer from two intertwined failures - incorrect answers and confident hallucinations - both rooted in the same cause: the model is forced to infer business semantics that the schema does not encode. We test whether supplying those semantics as context closes the gap. We benchmark three frontier LLMs (Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.4) on 100 natural-language questions over the Cleaned Contoso Retail Dataset in ClickHouse, using a paired single-shot protocol. Each model is evaluated twice: once given only the warehouse schema, and once given the schema plus a 4 KB hand-authored markdown document describing the dataset's measures, conventions, and disambiguation rules. Adding the document improves accuracy by +17 to +23 percentage points across all three models. With it, the three models are statistically indistinguishable (67.7-68.7%); without it, they are also indistinguishable (45.5-50.5%). Every cross-cluster comparison is significant at p < 0.01. The presence of the semantic-layer document accounts for essentially all of the significant variance; model choice within tier does not. We interpret this as a structural result: explicit business semantics suppress the dominant class of text-to-SQL errors not by making the model more capable, but by changing what the model is being asked to do.
- Abstract(参考訳): 解析データベースの自然言語クエリ用にデプロイされたLLMは、誤った回答と自信ある幻覚という2つの相反する失敗に悩まされる。
これらのセマンティクスをコンテキストとして提供することがギャップを埋めるかどうかをテストする。
我々はClickHouseのCleaned Contoso Retail Dataset上で,100の自然言語質問に対して,ペアのシングルショットプロトコルを用いて,フロンティアのLLM(Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.4)をベンチマークした。
各モデルは2回評価される。一度はウェアハウススキーマのみを与えられ、一度はスキーマとデータセットの測度、規約、曖昧さのルールを記述した4KBの手書きのマークダウンドキュメントが与えられる。
ドキュメントを追加することで、3つのモデルで+17から+23ポイントの精度が向上する。
3つのモデルは統計的に区別不能(67.7-68.7%)であり、それなしでは区別不能(45.5-50.5%)である。
すべてのクラスタ間比較は p < 0.01 において重要である。
セマンティック・レイヤ・ドキュメントの存在は、本質的に重要な分散の全ての原因となります。
明示的なビジネスセマンティクスは、モデルをより有能にするのではなく、モデルに要求されていることを変更することによって、テキストからSQLへのエラーの優位なクラスを抑圧します。
関連論文リスト
- BibTeX Citation Hallucinations in Scientific Publishing Agents: Evaluation and Mitigation [34.429649156970015]
以前の評価では、検索なしでベースモデルをテストしたが、これは現在の慣行を反映していない。
3つの検索可能なフロンティアモデルでは、9つのフィールドと6方向のエラー分類に基づいてBibエントリを生成する。
全体的な精度は83.6%だが、完全な正確さは50.9%に過ぎない。
論文 参考訳(メタデータ) (2026-04-03T16:30:58Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - Regularization Through Reasoning: Systematic Improvements in Language Model Classification via Explanation-Enhanced Fine-Tuning [2.247737938202007]
細調整中に各ラベルに簡単な説明を付けると、より優れたモデルが得られるかどうかを評価する。
我々は、人間による説明を、構文的に不整合でありながら原文と一致するテキストに置き換える。
この効果はデータセットにまたがって持続し、種子を訓練することで、ゲインは構造よりも意味から生じないことを示している。
論文 参考訳(メタデータ) (2025-11-03T20:25:42Z) - Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - Fact-Consistency Evaluation of Text-to-SQL Generation for Business Intelligence Using Exaone 3.5 [0.0]
大規模言語モデル(LLM)は、テキスト・ツー・ジェネレーションによる構造化データクエリーのための自然言語インタフェースの実現を約束している。
本稿では,Exaone 3.5 を用いて LLM 生成したsql 出力の意味的精度を評価するためのFact-Consistency Evaluation Framework を提案する。
本稿では,LG Electronicsの内部BigQuery環境における実際の販売データから抽出した219の自然言語ビジネス質問からなるドメイン固有ベンチマークを構築した。
我々は,応答精度,実行成功率,意味的誤り率,非応答率を用いてモデル性能を評価する。
論文 参考訳(メタデータ) (2025-04-30T14:42:18Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。
オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。