論文の概要: Declarative Techniques for NL Queries over Heterogeneous Data
- arxiv url: http://arxiv.org/abs/2510.16470v1
- Date: Sat, 18 Oct 2025 12:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.009522
- Title: Declarative Techniques for NL Queries over Heterogeneous Data
- Title(参考訳): 不均一データによるNLクエリの宣言手法
- Authors: Elham Khabiri, Jeffrey O. Kephart, Fenno F. Heath III, Srideepika Jayaraman, Fateh A. Tipu, Yingjie Li, Dhruv Shah, Achille Fokoue, Anu Bhamidipaty,
- Abstract要約: 多くの産業環境では、ユーザは自然言語で質問をしたい。その答えは、さまざまな構造化されたデータソースからの情報を集める必要がある。
LLM(Large Language Models)の出現により、アプリケーションは自然言語の質問をAPI呼び出しやデータベース呼び出しのセットに変換し、それらを実行し、結果を適切な自然言語応答に組み合わせることが可能になる。
しかし、これらの応用は、そのような環境に代表されるデータ源の不均一性に対処しないため、現実的な産業環境では実用的ではない。
- 参考スコア(独自算出の注目度): 15.249556281397608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many industrial settings, users wish to ask questions in natural language, the answers to which require assembling information from diverse structured data sources. With the advent of Large Language Models (LLMs), applications can now translate natural language questions into a set of API calls or database calls, execute them, and combine the results into an appropriate natural language response. However, these applications remain impractical in realistic industrial settings because they do not cope with the data source heterogeneity that typifies such environments. In this work, we simulate the heterogeneity of real industry settings by introducing two extensions of the popular Spider benchmark dataset that require a combination of database and API calls. Then, we introduce a declarative approach to handling such data heterogeneity and demonstrate that it copes with data source heterogeneity significantly better than state-of-the-art LLM-based agentic or imperative code generation systems. Our augmented benchmarks are available to the research community.
- Abstract(参考訳): 多くの産業環境では、ユーザは自然言語で質問をしたいと思っている。
LLM(Large Language Models)の登場により、アプリケーションは自然言語の質問をAPI呼び出しやデータベース呼び出しのセットに変換し、それらを実行し、結果を適切な自然言語応答に組み合わせることが可能になる。
しかし、これらの応用は、そのような環境に代表されるデータ源の不均一性に対処しないため、現実的な産業環境では実用的ではない。
本研究では、データベースとAPIコールの組み合わせを必要とする人気のあるSpiderベンチマークデータセットの2つの拡張を導入することで、実業界設定の不均一性をシミュレートする。
そこで本稿では,データの不均一性を扱う宣言的手法を導入し,データソースの不均一性に対処できることを実証する。
拡張ベンチマークはリサーチコミュニティで利用可能です。
関連論文リスト
- Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。
FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。
新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-24T11:28:53Z) - Natural Language Interaction with Databases on Edge Devices in the Internet of Battlefield Things [0.0]
インターネット・オブ・バトルフィールド・モノズ(IoBT)は、状況意識を高める新たな機会をもたらす。
批判的意思決定における状況認識のためのIoBTの可能性を高めるために、これらのデバイスからのデータは、コンシューマ対応の情報オブジェクトに処理されなければならない。
本稿では、自然言語処理(NLP)を利用してデータベース技術に問い合わせ、自然言語で応答を返すワークフローを提案する。
論文 参考訳(メタデータ) (2025-06-05T20:52:13Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - RouteNator: A Router-Based Multi-Modal Architecture for Generating Synthetic Training Data for Function Calling LLMs [3.41612427812159]
デジタルコンテンツ作成ツールでは、ユーザは、API呼び出しにマップしなければならない自然言語クエリを通じて、ニーズを表現します。
既存の合成データ生成アプローチでは、実世界のデータ分散を複製することができない。
高品質な合成学習データを生成するルータベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-05-15T16:53:45Z) - Needle: A Generative AI-Powered Multi-modal Database for Answering Complex Natural Language Queries [8.779871128906787]
マルチモーダルデータセットは、各項目にエンコードされたリッチな情報を適切にキャプチャする詳細な記述を見逃すことが多い。
このドメインでは、複雑な自然言語クエリに答えることが大きな課題になります。
本稿では, 基礎モデルを用いて合成サンプルを生成するモンテカルロ法を提案する。
当社のシステムはオープンソースであり,研究者や開発者が容易に採用できるように設計されている。
論文 参考訳(メタデータ) (2024-12-01T01:36:41Z) - A System and Benchmark for LLM-based Q&A on Heterogeneous Data [17.73258512415368]
データベースとAPIの両方へのシームレスな自然言語アクセスを可能にするsiwarexプラットフォームを導入しました。
修正されたスパイダーベンチマークは、近く研究コミュニティに公開される予定です。
論文 参考訳(メタデータ) (2024-09-09T15:44:39Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。