論文の概要: Design and testing of an agent chatbot supporting decision making with public transport data
- arxiv url: http://arxiv.org/abs/2505.22698v1
- Date: Wed, 28 May 2025 14:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.447538
- Title: Design and testing of an agent chatbot supporting decision making with public transport data
- Title(参考訳): 公共交通機関データによる意思決定を支援するエージェントチャットボットの設計とテスト
- Authors: Luca Fantin, Marco Antonelli, Margherita Cesetti, Daniele Irto, Bruno Zamengo, Francesco Silvestri,
- Abstract要約: 本稿では,データセットと対話し,意思決定を支援するユーザフレンドリーなツールを提案する。
それはエージェントアーキテクチャに基づいており、コアのLarge Language Model(LLM)の機能を拡張する。
本稿では,このようなジェネレーティブAIプロジェクトの主要なオープンな問題,すなわちシステムの性能を測定するためのデータ収集に取り組む。
- 参考スコア(独自算出の注目度): 0.19791587637442667
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Assessing the quality of public transportation services requires the analysis of large quantities of data on the scheduled and actual trips and documents listing the quality constraints each service needs to meet. Interrogating such datasets with SQL queries, organizing and visualizing the data can be quite complex for most users. This paper presents a chatbot offering a user-friendly tool to interact with these datasets and support decision making. It is based on an agent architecture, which expands the capabilities of the core Large Language Model (LLM) by allowing it to interact with a series of tools that can execute several tasks, like performing SQL queries, plotting data and creating maps from the coordinates of a trip and its stops. This paper also tackles one of the main open problems of such Generative AI projects: collecting data to measure the system's performance. Our chatbot has been extensively tested with a workflow that asks several questions and stores the generated query, the retrieved data and the natural language response for each of them. Such questions are drawn from a set of base examples which are then completed with actual data from the database. This procedure yields a dataset for the evaluation of the chatbot's performance, especially the consistency of its answers and the correctness of the generated queries.
- Abstract(参考訳): 公共交通サービスの質を評価するには、スケジュールと実際の旅行に関する大量のデータ分析と、各サービスが満たすべき品質制約を列挙するドキュメントが必要である。
このようなデータセットをSQLクエリでインターロゲートし、データを整理して視覚化することは、ほとんどのユーザにとって非常に複雑です。
本稿では,これらのデータセットと対話し,意思決定を支援するユーザフレンドリーなツールを提供するチャットボットを提案する。
SQLクエリの実行、データのプロット、トリップの座標とその停止からマップの作成など、いくつかのタスクを実行する一連のツールとのインタラクションを可能にすることで、コアのLarge Language Model(LLM)の機能を拡張するエージェントアーキテクチャに基づいている。
本稿では,このようなジェネレーティブAIプロジェクトの主要なオープンな問題,すなわちシステムの性能を測定するためのデータ収集に取り組む。
私たちのチャットボットは、いくつかの質問をし、生成されたクエリ、検索されたデータ、そしてそれぞれの自然言語応答を格納するワークフローで広範囲にテストされています。
このような質問は、データベースから実際のデータで完了する一連の基本例から引き出される。
この手順は、チャットボットのパフォーマンス、特にその回答の一貫性と生成されたクエリの正確性を評価するためのデータセットを生成する。
関連論文リスト
- TARGET: Benchmarking Table Retrieval for Generative Tasks [7.379012456053551]
TARGETは、GEnerative TasksのTAble Retrievalを評価するためのベンチマークである。
我々は、異なる検索者の検索性能と、下流タスクへの影響を分離して分析する。
密着型埋込型検索器はBM25ベースラインよりもはるかに優れており,非構造化テキストの検索よりも効率が低い。
論文 参考訳(メタデータ) (2025-05-14T19:39:46Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - GenQA: Generating Millions of Instructions from a Handful of Prompts [67.54980063851605]
ほとんどの公開命令微調整データセットは、業界モデルをトレーニングするために使用されるクローズドソースデータセットと比較して比較的小さい。
本研究では,1つのプロンプトから大規模命令データセットを生成する手法について検討する。
我々のデータセットは、知識集約型リーダーボードタスクと会話評価の両方で、WizardLMとUltrachatの両方に遭遇または超過します。
論文 参考訳(メタデータ) (2024-06-14T17:44:08Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - TANQ: An open domain dataset of table answered questions [15.323690523538572]
TANQは、複数のソースにまたがる情報からテーブルを構築する必要がある、最初のオープンドメイン質問応答データセットである。
結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。
私たちの最高のパフォーマンスベースラインであるGemini Flashは、全体的なF1スコア60.7に達し、人間のパフォーマンスに12.3ポイント遅れています。
論文 参考訳(メタデータ) (2024-05-13T14:07:20Z) - IQLS: Framework for leveraging Metadata to enable Large Language Model based queries to complex, versatile Data [0.20482269513546458]
Intelligent Query and Learning System (IQLS)は、自然言語を使ってデータ検索を単純化することで、プロセスを単純化する。
利用可能なメタデータと利用可能なデータモデルに基づいて、構造化されたデータをフレームワークにマッピングする。
IQLSは、インターフェイスを通じてユーザクエリによって与えられるタスクをエージェントが実行可能にする。
論文 参考訳(メタデータ) (2024-05-04T13:44:05Z) - QBSUM: a Large-Scale Query-Based Document Summarization Dataset from
Real-world Applications [20.507631900617817]
提案するQBSUMは,中国語クエリベースの文書要約処理のための49,000以上のデータサンプルからなる高品質な大規模データセットである。
また,タスクに対する教師なしおよび教師なしの複数のソリューションを提案し,オフライン実験とオンラインA/Bテストの両方を通して,高速な推論と優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-27T07:30:04Z) - Conversations with Search Engines: SERP-based Conversational Response
Generation [77.1381159789032]
我々は、検索エンジンと対話するためのパイプラインを開発するために、適切なデータセット、検索・アズ・ア・会話(SaaC)データセットを作成します。
また、このデータセットを用いて、検索エンジンと対話するための最先端パイプライン(Conversations with Search Engines (CaSE))も開発しています。
CaSEは、サポートされたトークン識別モジュールとプリア・アウェア・ポインタージェネレータを導入することで最先端を向上する。
論文 参考訳(メタデータ) (2020-04-29T13:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。