論文の概要: Can LLMs Narrate Tabular Data? An Evaluation Framework for Natural Language Representations of Text-to-SQL System Outputs
- arxiv url: http://arxiv.org/abs/2510.23854v1
- Date: Mon, 27 Oct 2025 20:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.515174
- Title: Can LLMs Narrate Tabular Data? An Evaluation Framework for Natural Language Representations of Text-to-SQL System Outputs
- Title(参考訳): LLMs Narrate Tabular Data? : テキスト-SQLシステム出力の自然言語表現のための評価フレームワーク
- Authors: Jyotika Singh, Weiyi Sun, Amit Agarwal, Viji Krishnamurthy, Yassine Benajiba, Sujith Ravi, Dan Roth,
- Abstract要約: 本稿では,LLM生成NLRの判定のための新しい評価手法であるCombo-Evalを提案する。
本手法は,NLR専用のベンチマークデータセットであるNLR-BIRDである。
- 参考スコア(独自算出の注目度): 39.26891491245579
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In modern industry systems like multi-turn chat agents, Text-to-SQL technology bridges natural language (NL) questions and database (DB) querying. The conversion of tabular DB results into NL representations (NLRs) enables the chat-based interaction. Currently, NLR generation is typically handled by large language models (LLMs), but information loss or errors in presenting tabular results in NL remains largely unexplored. This paper introduces a novel evaluation method - Combo-Eval - for judgment of LLM-generated NLRs that combines the benefits of multiple existing methods, optimizing evaluation fidelity and achieving a significant reduction in LLM calls by 25-61%. Accompanying our method is NLR-BIRD, the first dedicated dataset for NLR benchmarking. Through human evaluations, we demonstrate the superior alignment of Combo-Eval with human judgments, applicable across scenarios with and without ground truth references.
- Abstract(参考訳): マルチターンチャットエージェントのようなモダンな業界システムでは、Text-to-SQL技術は自然言語(NL)質問とデータベース(DB)クエリをブリッジする。
表形式DBの結果をNL表現(NLR)に変換することで、チャットベースのインタラクションが可能になる。
現在、NLR生成は通常、大きな言語モデル(LLM)によって処理されているが、NLにおける表形式の結果を示す際の情報損失や誤りは、ほとんど探索されていない。
本稿では,複数の既存手法の利点を組み合わせ,評価精度を最適化し,LLMコールを25~61%削減する新しい評価手法であるCombo-Evalを提案する。
NLR-BIRDは,NLRベンチマークのための最初の専用データセットである。
人間の評価を通して,コンボ・エバルと人間の判断との整合性を示す。
関連論文リスト
- LLM-Driven Data Generation and a Novel Soft Metric for Evaluating Text-to-SQL in Aviation MRO [0.6374763930914525]
そこで本研究では,F1スコアベースの'ソフト'メトリクスを新たに導入し,実測値と実測値の重なりを定量化する。
我々は,MROデータベース上での実証的な評価を通じて,我々の貢献を実証する。
論文 参考訳(メタデータ) (2025-06-11T04:04:13Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - From Natural Language to SQL: Review of LLM-based Text-to-SQL Systems [1.1060425537315088]
本調査は,LLMに基づくテキスト・ツー・システムの進化に関する総合的研究である。
ベンチマーク、評価方法、評価指標について議論する。
LLMベースのテキスト・ツー・システムの改善に向けた,計算効率,モデルロバスト性,データプライバシといった重要な課題を強調した。
論文 参考訳(メタデータ) (2024-10-01T20:46:25Z) - DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning [19.93800175353809]
DeTrieverは、隠れた状態の重み付けを学習する新しいデモ検索フレームワークである。
提案手法は1ショットNL2タスクにおける最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2024-06-12T06:33:54Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。