論文の概要: Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study
- arxiv url: http://arxiv.org/abs/2605.26394v1
- Date: Mon, 25 May 2026 23:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.506449
- Title: Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study
- Title(参考訳): Multi-Turn Text-to-SQLのためのメモリアーキテクチャ:ベンチマークと実証的研究
- Authors: Ravi Kumar Tummalapenta, Suman Addanki,
- Abstract要約: Multi-turn Text-to-BIRDはエンタープライズ分析の中心であるが、シングルターン設定では主に評価されている。
GPT-5 mini, GPT-5.2, Claude Sonnet 4.5, Sonnet 4.6, Opus 4.6の5つのモデルを5つのメモリ条件で評価した。
全てのクロードモデルは拡張思考で評価され、GPT推論モデルと同等に維持できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-turn Text-to-SQL is central to enterprise analytics yet remains predominantly evaluated in single-turn settings. We introduce EnterpriseMem-Bench, a multi-turn Text-to-SQL benchmark of 300 sessions and 1,400 turns built programmatically from three enterprise domains (BIRD financial, SEC EDGAR, Northwind), with deterministic ground truth and per-turn memory-critical annotation. We evaluate five frontier models -- GPT-5 mini, GPT-5.2, Claude Sonnet 4.5, Sonnet 4.6, and Opus 4.6 -- across five memory conditions enabling a three-way ablation isolating working-memory window size, episodic retrieval, and semantic augmentation as independent effects. All Claude models are evaluated with extended thinking enabled to maintain parity with GPT reasoning models. We introduce the Memory Benefit Score (MBS) as a per-turn diagnostic metric. Four findings emerge: (1) stateless multi-turn Text-to-SQL collapses to zero execution accuracy by Turn 3 across all five models, even under reasoning; (2) memory-architecture complexity does not monotonically improve accuracy -- working memory dominates, and additional components produce model- and dataset-dependent effects from +14 to -16 percentage points; (3) Claude Sonnet 4.6 underperforms Sonnet 4.5 by 17-33pp on SEC EDGAR across conditions, a generational regression persisting under reasoning; (4) under reasoning, Claude error distributions become mono-modal -- every non-correct turn is a wrong-result error. We release the benchmark, agent, and evaluation code.
- Abstract(参考訳): Multi-turn Text-to-SQLはエンタープライズ分析の中心であるが、シングルターン設定では主に評価されている。
私たちはEnterpriseMem-Benchを紹介します。300のセッションと1,400のターンからなるマルチターンのテキスト-SQLベンチマークで、3つのエンタープライズドメイン(BIRDファイナンシャル、SEC EDGAR、Northwind)からプログラム的に構築され、決定論的基盤真理とターン毎のメモリクリティカルアノテーションを備えています。
GPT-5 mini, GPT-5.2, Claude Sonnet 4.5, Sonnet 4.6, Opus 4.6の5つのフロンティアモデルを評価する。
全てのクロードモデルは拡張思考で評価され、GPT推論モデルと同等に維持できる。
メモリベネフィットスコア(MBS)をターン単位の診断基準として導入する。
1) ステートレスなマルチターン テキスト-SQL は、推論の下でも 3 つのモデルすべてでゼロ実行精度に崩壊する (2) メモリ-アーキテクチャの複雑さは、単調に精度を向上しない ワーキングメモリが支配し、追加のコンポーネントは、+14から-16のパーセンテージポイントでモデル-およびデータセット依存のエフェクトを生成する (3) SEC EDGAR上で、Sonnet 4.5 - 17-33pp という条件で、Sonnet 4.5 - 17-33pp のアンダーパフォーマンス、推論下で持続する世代回帰 (4) 推論では、クロードエラーの分布はモノモーダルになり、すべての非正しいターンは、不正なエラーである。
ベンチマーク、エージェント、評価コードをリリースします。
関連論文リスト
- WhenLoss: Diagnosing Write and Retrieval Bottlenecks in Long-Context Memory Systems [2.605344682123109]
予測圧縮は全てのシステムの中で最も高いスコアを達成している。
これらの結果は、このベンチマークと評価設定において、書き込みステージが保持するものを改善することが、パフォーマンス向上の鍵となる道であることを示唆している。
論文 参考訳(メタデータ) (2026-05-23T13:43:14Z) - MEME: Multi-entity & Evolving Memory Evaluation [76.57263966646404]
MEMEは、マルチエンタリティと進化する軸によって定義される全空間にまたがる6つのタスクを定義している。
3つの記憶パラダイムにまたがる6つの記憶システムの評価。
デフォルト設定の下では、すべてのシステムが依存性の推論で崩壊しているのが分かります。
論文 参考訳(メタデータ) (2026-05-12T17:55:10Z) - Semantic Layers for Reliable LLM-Powered Data Analytics: A Paired Benchmark of Accuracy and Hallucination Across Three Frontier Models [0.0]
解析データベースの自然言語クエリ用にデプロイされたLLMは、2つの障害に悩まされる。
ClickHouseのCleaned Contoso Retailデータセットに対して,100の自然言語質問に対して,3つのフロンティアLSMをベンチマークした。
論文 参考訳(メタデータ) (2026-04-28T02:53:23Z) - BeliefShift: Benchmarking Temporal Belief Consistency and Opinion Drift in LLM Agents [0.0]
BeliefShiftはマルチセッション会話エージェントにおける信念のダイナミクスを評価するために設計されたベンチマークである。
テンポラル・リーフ・一貫性、コントラディション・インテクション、エビデンス・ドリブン・リビジョンの3つのトラックをカバーしている。
GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, LLaMA-3, Mistral-Largeの7つのモデルについて, ゼロショットおよび検索拡張生成設定で評価した。
論文 参考訳(メタデータ) (2026-03-25T02:09:35Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL [47.120862170230566]
最近のText-to-Yourselfメソッドは通常、"巨大な"データベース上での大幅なパフォーマンス劣化に悩まされる。
我々は,新しいテキスト・ツー・ユー・セルフ LLM ベースのマルチエージェント協調フレームワーク MAC を紹介する。
我々のフレームワークでは、GPT-4を全てのエージェントタスクの強力なバックボーンとして利用し、フレームワークの上限を決定する。
次に、Code 7Bを活用することで、オープンソースの命令フォローモデルであるsql-Llamaを微調整し、GPT-4のように全てのタスクを達成します。
論文 参考訳(メタデータ) (2023-12-18T14:40:20Z) - Conversational Text-to-SQL: An Odyssey into State-of-the-Art and
Challenges Ahead [6.966624873109535]
State-of-the-art (SOTA) システムは、T5ファミリーのような大規模で訓練済み、微調整された言語モデルを使用する。
トレーニング中に個別のプロンプトを持つコヒーレントなタスクに対するマルチタスク(MT)により、特殊なテキストから3つのモデルよりも改善する。
我々は、領域と構成の一般化に起因する誤りを分解する研究を行う。
論文 参考訳(メタデータ) (2023-02-21T23:15:33Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for
Text-to-SQL Parsing [56.232873134174056]
テキストからテキストへのパースにおける大きな課題の1つはドメインの一般化である。
そこで本研究では,テキスト・トゥ・テキスト・パーシングのための特殊なコンポーネントを備えた事前学習されたテキスト・ツー・テキスト・トランスフォーマー・モデルをさらに強化する方法について検討する。
この目的のために,レイヤを持つグラフ認識モデルによって拡張された新しいアーキテクチャ GRAPHIX-T5 を提案する。
論文 参考訳(メタデータ) (2023-01-18T13:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。