論文の概要: BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions
- arxiv url: http://arxiv.org/abs/2510.05318v2
- Date: Wed, 08 Oct 2025 14:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.201001
- Title: BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions
- Title(参考訳): BIRD-INTERACT:動的相互作用レンズによる大規模言語モデルのテキスト-SQL評価の再構築
- Authors: Nan Huo, Xiaohan Xu, Jinyang Li, Per Jacobsson, Shipei Lin, Bowen Qin, Binyuan Hui, Xiaolong Li, Ge Qu, Shuzheng Si, Linheng Han, Edward Alexander, Xintong Zhu, Rui Qin, Ruihan Yu, Yiyao Jin, Feige Zhou, Weihao Zhong, Yun Chen, Hongyu Liu, Chenhao Ma, Fatma Ozcan, Yannis Papakonstantinou, Reynold Cheng,
- Abstract要約: 大規模言語モデル(LLM)は、単一ターンのテキスト・ツー・タスクにおいて顕著な性能を示してきたが、現実のデータベースアプリケーションは、主にマルチターンインタラクションを必要とする。
既存のマルチターンベンチマークは、会話履歴を静的なコンテキストとして扱うか、読み取り専用操作に対する評価を制限することで不足する。
BIRD-INTERACTは,(1)知識ベース,メタデータファイル,機能駆動型ユーザシミュレータとデータベースを結合した総合的なインタラクション環境であり,モデルの解明,知識の検索,エラーからの回復を人間の監督なしに行うことができる。
- 参考スコア(独自算出の注目度): 33.59162905707337
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable performance on single-turn text-to-SQL tasks, but real-world database applications predominantly require multi-turn interactions to handle ambiguous queries, execution errors, and evolving user requirements. Existing multi-turn benchmarks fall short by treating conversation histories as static context or limiting evaluation to read-only operations, failing to reflect production-grade database assistant challenges. We introduce BIRD-INTERACT, a benchmark that restores this realism through: (1) a comprehensive interaction environment coupling each database with a hierarchical knowledge base, metadata files, and a function-driven user simulator, enabling models to solicit clarifications, retrieve knowledge, and recover from errors without human supervision; (2) two evaluation settings consisting of a pre-defined conversational protocol (c-Interact) and an open-ended agentic setting (a-Interact) where models autonomously decide when to query the user simulator or explore the environment; (3) a challenging task suite covering the full CRUD spectrum for business-intelligence and operational use cases, guarded by executable test cases. Each task features ambiguous and follow-up sub-tasks requiring dynamic interaction. The suite comprises BIRD-INTERACT-FULL (600 tasks, up to 11,796 interactions) for comprehensive performance assessment, and BIRD-INTERACT-LITE (300 tasks with simplified databases) for detailed behavioral analysis and rapid method development. Our empirical results highlight BIRD-INTERACT's difficulty: GPT-5 completes only 8.67% of tasks in c-Interact and 17.00% in a-Interact. Analysis via memory grafting and Interaction Test-time Scaling validates the importance of effective interaction for complex, dynamic text-to-SQL tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、シングルターンのテキスト-SQLタスクにおいて顕著なパフォーマンスを示しているが、実際のデータベースアプリケーションは、あいまいなクエリ、実行エラー、ユーザの要求の進化を扱うために、主にマルチターンインタラクションを必要とする。
既存のマルチターンベンチマークは、会話履歴を静的なコンテキストとして扱うか、読み取り専用操作の評価を制限することで不足しており、プロダクショングレードのデータベースアシスタントの課題を反映していない。
BIRD-INTERACTは,(1)データベースを階層的な知識ベース,メタデータファイル,機能駆動型ユーザシミュレータと結合し,モデルの明確化,知識の検索,エラーからの回復を人間による監督なしに行うための総合的なインタラクション環境,(2)事前に定義された対話プロトコル(c-Interact)とオープンなエージェント設定(a-Interact)から構成される2つの評価環境,(3)ビジネス知能と運用上のユースケースの完全なCRUDスペクトルを網羅した課題スイート,である。
各タスクは、動的相互作用を必要とする曖昧でフォローアップされたサブタスクを特徴とする。
このスイートは、包括的なパフォーマンス評価のためのBIRD-INTERACT-FULL(600タスク、最大1,796のインタラクション)と、詳細な振る舞い分析と迅速なメソッド開発のためのBIRD-INTERACT-LITE(300タスクと単純化されたデータベース)で構成されている。
GPT-5はc-Interactのタスクの8.67%、a-Interactの17.00%しか完了していません。
メモリグラフトとインタラクションによる分析 テストタイムスケーリングは、複雑な動的テキストからSQLタスクへの効果的なインタラクションの重要性を検証する。
関連論文リスト
- Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations [70.94563079082751]
電子商取引は、複雑なマルチターンユーザーインタラクションを管理する上で、伝統的な製品検索システムの限界を明らかにしている。
本稿では,対話型マルチモーダル製品検索にテスト時間スケーリングを導入する新しいフレームワークを提案する。
提案手法は生成型レトリバー上に構築され,さらに検索精度の向上と,対話を通してユーザ意図の進化と結果の整合性を向上するテストタイムリグレード機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-25T15:38:56Z) - ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction [84.90394416593624]
大規模言語モデル(LLM)によるエージェント的タスク解決には,多ターン・マルチステップインタラクションが必要である。
既存のシミュレーションベースのデータ生成手法は、複数のエージェント間のコストのかかる自己回帰的相互作用に大きく依存している。
本稿では,高品質なマルチターンエージェント対話を構築するための非自己回帰反復生成フレームワークであるToolACE-MTを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:38:23Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。
タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文 参考訳(メタデータ) (2024-09-30T12:01:29Z) - Interactive-T2S: Multi-Turn Interactions for Text-to-SQL with Large Language Models [9.914489049993495]
本稿では,データベースとの直接対話を通じてクエリを生成するフレームワークであるInteractive-T2Sを紹介する。
フレームワーク内のステップワイズ推論プロセスを示すための詳細な例を開発してきた。
BIRD-Devデータセットを用いた実験により,本手法が最先端の成果を達成できたのは2つの例に過ぎなかった。
論文 参考訳(メタデータ) (2024-08-09T07:43:21Z) - On Evaluating the Integration of Reasoning and Action in LLM Agents with
Database Question Answering [25.57202500348071]
本研究では、大規模言語モデルがデータベースとどのように相互作用するかを評価するために設計された、新しい長文データベース質問応答データセットを提案する。
このタスクでは、LLMが戦略的に複数のクエリを生成し、データベースから十分なデータを取得し、取得したコンテキストを推論し、それらを総合的な分析的な物語に合成する必要がある。
本稿では2つのインタラクション戦略を提案し評価し、インタラクション内の個々のステージを詳細に分析する。
論文 参考訳(メタデータ) (2023-11-16T09:55:07Z) - MUG: Interactive Multimodal Grounding on User Interfaces [12.035123646959669]
本稿では,ユーザとエージェントがインタフェース画面上で協調作業を行うマルチモーダルグラウンドのための対話型タスクMUGを提案する。
ユーザがコマンドを与え、エージェントがコマンドに応答する。MUGはエージェントの応答を見る際に、エージェントがそのアクションを洗練または修正するための追加コマンドを与えるように、複数のラウンドのインタラクションを可能にする。
論文 参考訳(メタデータ) (2022-09-29T21:08:18Z) - Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent
Semantic Parsing [52.24507547010127]
ドメイン間コンテキスト依存のセマンティック解析は研究の新たな焦点である。
本稿では,コンテキストの発話,トークン,データベーススキーマ,会話の進行に伴う複雑なインタラクションを効果的にモデル化する動的グラフフレームワークを提案する。
提案したフレームワークは既存のモデルを大きなマージンで上回り、2つの大規模ベンチマークで新しい最先端性能を達成する。
論文 参考訳(メタデータ) (2021-01-05T18:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。