論文の概要: ChatGPT for GTFS: Benchmarking LLMs on GTFS Understanding and Retrieval
- arxiv url: http://arxiv.org/abs/2308.02618v2
- Date: Fri, 3 Nov 2023 17:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 17:30:30.748865
- Title: ChatGPT for GTFS: Benchmarking LLMs on GTFS Understanding and Retrieval
- Title(参考訳): GTFSのChatGPT: GTFSの理解と検索に関するLLMのベンチマーク
- Authors: Saipraneeth Devunuri, Shirin Qiam, Lewis Lehe
- Abstract要約: 本研究の目的は,現在広く採用されているLLM(ChatGPT)が,自然言語命令を用いてGTFSから情報を取り出すことができるかどうかを,明示的に情報を提供することなく確かめることである。
ChatGPTは、59.7%(GPT-3.5-Turbo)と73.3%(GPT-4)のマルチチョイス質問(MCQ)を正しく答えることで、GTFSを合理的に理解している。
GPT-4 (GPT-3.5-Turbo) を用いて, 単純なクエリに対して最大93% (90%) の精度, 複雑なクエリに対して61% (41%) の精度を実現した。
- 参考スコア(独自算出の注目度): 2.3951780950929678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The General Transit Feed Specification (GTFS) standard for publishing transit
data is ubiquitous. GTFS being tabular data, with information spread across
different files, necessitates specialized tools or packages to retrieve
information. Concurrently, the use of Large Language Models(LLMs) for text and
information retrieval is growing. The idea of this research is to see if the
current widely adopted LLMs (ChatGPT) are able to understand GTFS and retrieve
information from GTFS using natural language instructions without explicitly
providing information. In this research, we benchmark OpenAI's GPT-3.5-Turbo
and GPT-4 LLMs which are the backbone of ChatGPT. ChatGPT demonstrates a
reasonable understanding of GTFS by answering 59.7% (GPT-3.5-Turbo) and 73.3%
(GPT-4) of our multiple-choice questions (MCQ) correctly. Furthermore, we
evaluated the LLMs on information extraction tasks using a filtered GTFS feed
containing four routes. We found that program synthesis techniques outperformed
zero-shot approaches, achieving up to 93% (90%) accuracy for simple queries and
61% (41%) for complex ones using GPT-4 (GPT-3.5-Turbo).
- Abstract(参考訳): トランジットデータを公開するためのgeneral transit feed specification(gtfs)標準はユビキタスである。
GTFSは表形式のデータであり、異なるファイルにまたがる情報を提供するため、情報を取得するには特別なツールやパッケージが必要である。
同時に,テキストや情報検索におけるLarge Language Models(LLMs)の利用が増加している。
本研究の目的は,現在広く採用されているLLM(ChatGPT)が,自然言語命令を用いてGTFSから情報を取り出すことができるかどうかを,情報提供なしで確認することである。
本研究では,ChatGPTのバックボーンである OpenAI の GPT-3.5-Turbo と GPT-4 LLM のベンチマークを行った。
ChatGPTは、59.7%(GPT-3.5-Turbo)と73.3%(GPT-4)のマルチチョイス質問(MCQ)を正しく答えることで、GTFSを合理的に理解している。
さらに,4経路を含むフィルタGTFSフィードを用いて,情報抽出タスクのLLMを評価した。
その結果,GPT-4 (GPT-3.5-Turbo) を用いた複雑なクエリでは,93% (90%) の精度,61% (41%) の精度を実現した。
関連論文リスト
- An Empirical Study on Information Extraction using Large Language Models [36.090082785047855]
人間に似た大規模言語モデル(LLM)は多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。
本稿では,GPT-4の情報抽出能力に対する一連の単純なプロンプトベース手法の効果について検討する。
論文 参考訳(メタデータ) (2024-08-31T07:10:16Z) - GPTZoo: A Large-scale Dataset of GPTs for the Research Community [5.1875389249043415]
GPTZooは730,420のGPTインスタンスからなる大規模データセットである。
それぞれのインスタンスには、その特性を記述した21の属性と、開発中に使用される命令、ナレッジファイル、サードパーティサービスを含む豊富なメタデータが含まれている。
論文 参考訳(メタデータ) (2024-05-24T15:17:03Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies [47.129504708849446]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。
本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2024-02-27T10:44:52Z) - Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize
Encoded Knowledge [85.17343729885003]
我々は,Hint-before-Solving Prompting (HSP)を導入し,その問題を解くためのヒントを生成する。
HSPは推論タスクの精度を効果的に向上させることができる。
我々はHSPと細調整されたLlemma-7Bに基づいてHSPMATHデータセットを構築し、64.3精度を達成した。
論文 参考訳(メタデータ) (2024-02-22T05:58:03Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。
私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文 参考訳(メタデータ) (2023-09-28T16:43:35Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - Open-Source LLMs for Text Annotation: A Practical Guide for Model Setting and Fine-Tuning [5.822010906632045]
本稿では、政治科学研究に典型的なテキスト分類タスクにおけるオープンソースのLarge Language Models(LLM)の性能について検討する。
姿勢・話題・関連分類などの課題を調べることで,テキスト分析におけるLLMの使用に関する情報的判断を学者に指導することを目指す。
論文 参考訳(メタデータ) (2023-07-05T10:15:07Z) - An Empirical Study on Information Extraction using Large Language Models [36.090082785047855]
人間に似た大規模言語モデル(LLM)は多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。
本稿では,GPT-4の情報抽出能力に対する一連の単純なプロンプトベース手法の効果について検討する。
論文 参考訳(メタデータ) (2023-05-23T18:17:43Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。