論文の概要: ScenarioBench: Trace-Grounded Compliance Evaluation for Text-to-SQL and RAG
- arxiv url: http://arxiv.org/abs/2509.24212v1
- Date: Mon, 29 Sep 2025 02:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.703014
- Title: ScenarioBench: Trace-Grounded Compliance Evaluation for Text-to-SQL and RAG
- Title(参考訳): ScenarioBench: Text-to-SQLとRAGのためのトレース付きコンプライアンス評価
- Authors: Zahra Atf, Peter R Lewis,
- Abstract要約: Scenarioは、コンプライアンスコンテキストにおけるText-to-retrieval-augmented生成を評価するための、ポリシーベースでトレース対応のベンチマークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ScenarioBench is a policy-grounded, trace-aware benchmark for evaluating Text-to-SQL and retrieval-augmented generation in compliance contexts. Each YAML scenario includes a no-peek gold-standard package with the expected decision, a minimal witness trace, the governing clause set, and the canonical SQL, enabling end-to-end scoring of both what a system decides and why. Systems must justify outputs using clause IDs from the same policy canon, making explanations falsifiable and audit-ready. The evaluator reports decision accuracy, trace quality (completeness, correctness, order), retrieval effectiveness, SQL correctness via result-set equivalence, policy coverage, latency, and an explanation-hallucination rate. A normalized Scenario Difficulty Index (SDI) and a budgeted variant (SDI-R) aggregate results while accounting for retrieval difficulty and time. Compared with prior Text-to-SQL or KILT/RAG benchmarks, ScenarioBench ties each decision to clause-level evidence under strict grounding and no-peek rules, shifting gains toward justification quality under explicit time budgets.
- Abstract(参考訳): ScenarioBenchは、コンプライアンスコンテキストにおけるText-to-SQLと検索強化生成を評価するための、ポリシーベースでトレース対応のベンチマークである。
各YAMLシナリオには、期待される決定、最小限の証人トレース、統治条項セット、標準SQLを含む、非ピークのゴールドスタンダードパッケージが含まれており、システムが決定する理由と理由の両方をエンドツーエンドにスコアリングすることができる。
システムは、同じポリシーカノンから節IDを使用して出力を正当化し、説明が偽造可能で監査可能なものにしなければならない。
評価器は、決定精度、トレース品質(完全性、正確性、順序)、検索効率、結果セットの等価性によるSQLの正しさ、ポリシーカバレッジ、レイテンシ、説明幻覚率を報告する。
SDI(Scenario Difficulty Index)とSDI-R(S budgeted variant)は,検索の困難さと時間を考慮して集計した。
従来の Text-to-SQL や KILT/RAG ベンチマークと比較すると,ScenarioBench では,厳格な根拠と非ピークルールの下で,各決定を条項レベルのエビデンスに関連付けている。
関連論文リスト
- SQLCritic: Correcting Text-to-SQL Generation via Clause-wise Critic [8.680252929322684]
そこで我々は,sqlCriticBenchというベンチマークとともに,節単位の批判生成タスクを導入し,詳細なエラーローカライゼーションを行う。
また,自動トレーニングデータセットキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-03-11T02:52:39Z) - PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文 参考訳(メタデータ) (2025-02-24T19:48:00Z) - Fundamental Challenges in Evaluating Text2SQL Solutions and Detecting Their Limitations [9.363953429870007]
予測と評価の誤りを生じる可能性のあるすべてのText2制限を統一した分類法を提案する。
本稿では,実例による制限の原因について述べるとともに,分類学における各カテゴリーに対する潜在的な緩和ソリューションを提案する。
論文 参考訳(メタデータ) (2025-01-30T08:31:09Z) - Few-shot Policy (de)composition in Conversational Question Answering [54.259440408606515]
本稿では,大規模言語モデル(LLM)を用いて数ショット設定でポリシーコンプライアンスを検出するニューラルシンボリックフレームワークを提案する。
提案手法は,回答すべきサブクエストを抽出し,文脈情報から真理値を割り当て,与えられたポリシーから論理文の集合を明示的に生成することで,政策コンプライアンスに関する会話に対して健全な理由を示す。
本手法は,PCDおよび会話機械読解ベンチマークであるShARCに適用し,タスク固有の微調整を伴わずに競合性能を示す。
論文 参考訳(メタデータ) (2025-01-20T08:40:15Z) - Evaluating LLMs for Text-to-SQL Generation With Complex SQL Workload [1.2738020945091273]
TPC-DSクエリは、他の2つのベンチマークと比較すると、構造的な複雑さがかなり高い。
現在の最先端の生成AIモデルは、正確な意思決定クエリの生成に不足していることを示している。
その結果、実際の実世界のアプリケーションでは、生成したクエリの精度が不十分であることが判明した。
論文 参考訳(メタデータ) (2024-07-28T15:53:05Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing [64.80483736666123]
文脈依存型テキスト・ツー・パースのための新しい事前学習フレームワークSTARを提案する。
さらに,STARを事前学習するための大規模コンテキスト依存型テキスト対話コーパスを構築した。
大規模な実験により、STARは2つの下流ベンチマークで新しい最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-10-21T11:30:07Z) - Searching for Better Database Queries in the Outputs of Semantic Parsers [16.221439565760058]
本稿では,テスト時に生成したクエリを評価する外部基準にアクセスできる場合を考える。
クエリがエラーなしに実行されることをチェックすることから、一連のテストでクエリを検証することまで、その基準は様々である。
我々は、最先端のセマンティクスにアプローチを適用し、異なるデータセットですべてのテストを通過する多くのクエリを見つけることができると報告します。
論文 参考訳(メタデータ) (2022-10-13T17:20:45Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Towards Dynamic Consistency Checking in Goal-directed Predicate Answer
Set Programming [2.3204178451683264]
本稿では,動的一貫性チェック(Dynamic Consistency check)と呼ばれるトップダウン評価戦略のバリエーションを示す。
これにより、リテラルがプログラムのグローバルな制約に関連する否定と互換性がないかどうかを判断できる。
我々は、標準バージョンのs(CASP)の最大90倍のスピードアップを実験的に観察した。
論文 参考訳(メタデータ) (2021-10-22T20:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。