論文の概要: TeleQnA: A Benchmark Dataset to Assess Large Language Models
Telecommunications Knowledge
- arxiv url: http://arxiv.org/abs/2310.15051v1
- Date: Mon, 23 Oct 2023 15:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:56:42.045797
- Title: TeleQnA: A Benchmark Dataset to Assess Large Language Models
Telecommunications Knowledge
- Title(参考訳): TeleQnA: 大規模言語モデルの通信知識を評価するベンチマークデータセット
- Authors: Ali Maatouk, Fadhel Ayed, Nicola Piovesan, Antonio De Domenico,
Merouane Debbah, Zhi-Quan Luo
- Abstract要約: TeleQnAは、電気通信におけるLLM(Large Language Models)の知識を評価するために設計された最初のベンチマークデータセットである。
本稿では,このデータセット作成に責任を負う自動質問生成フレームワークについて概説する。
データセットはGitHubで公開されている。
- 参考スコア(独自算出の注目度): 26.302396162473293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce TeleQnA, the first benchmark dataset designed to evaluate the
knowledge of Large Language Models (LLMs) in telecommunications. Comprising
10,000 questions and answers, this dataset draws from diverse sources,
including standards and research articles. This paper outlines the automated
question generation framework responsible for creating this dataset, along with
how human input was integrated at various stages to ensure the quality of the
questions. Afterwards, using the provided dataset, an evaluation is conducted
to assess the capabilities of LLMs, including GPT-3.5 and GPT-4. The results
highlight that these models struggle with complex standards related questions
but exhibit proficiency in addressing general telecom-related inquiries.
Additionally, our results showcase how incorporating telecom knowledge context
significantly enhances their performance, thus shedding light on the need for a
specialized telecom foundation model. Finally, the dataset is shared with
active telecom professionals, whose performance is subsequently benchmarked
against that of the LLMs. The findings illustrate that LLMs can rival the
performance of active professionals in telecom knowledge, thanks to their
capacity to process vast amounts of information, underscoring the potential of
LLMs within this domain. The dataset has been made publicly accessible on
GitHub.
- Abstract(参考訳): 通信におけるLarge Language Models (LLM) の知識を評価するために設計された最初のベンチマークデータセットであるTeleQnAを紹介する。
1万の質問と回答を含むこのデータセットは、標準や研究論文を含むさまざまなソースから作成されている。
本稿では、このデータセットの作成に責任を持つ自動質問生成フレームワークの概要と、質問の質を保証するために、さまざまな段階で人間の入力がどのように統合されたかを概説する。
その後、提案したデータセットを用いて、GPT-3.5およびGPT-4を含むLCMの能力を評価する。
その結果、これらのモデルは複雑な標準に関する問題に苦しむが、一般的な通信関連質問に対処する能力を示すことが明らかとなった。
さらに,通信知識の文脈を取り入れることで,その性能が著しく向上し,専門的な通信基盤モデルの必要性が強調された。
最後に、データセットはactive telecom professionalsと共有され、そのパフォーマンスはその後llmのパフォーマンスとベンチマークされる。
この結果から,LLMは,この領域内でのLLMの潜在能力を裏付ける膨大な量の情報処理能力のおかげで,通信分野のプロに匹敵する可能性が示唆された。
データセットはGitHubで公開されている。
関連論文リスト
- TelecomGPT: A Framework to Build Telecom-Specfic Large Language Models [7.015008083968722]
大きな言語モデル(LLM)は、第6世代(6G)通信ネットワークに革命をもたらす可能性がある。
本稿では,汎用LLMを通信用LLMに適応させるパイプラインを提案する。
既存の評価ベンチマークを拡張し、Telecom Math Modeling、Telecom Open QnA、Telecom Code Tasksという3つの新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-12T16:51:02Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Using Large Language Models to Understand Telecom Standards [35.343893798039765]
大きな言語モデル(LLM)は、関連する情報へのより高速なアクセスを提供する。
質問応答(QA)アシスタントとして使用される最先端のLCMの性能を評価する。
その結果,LLMはテレコム技術文書の信頼できる参照ツールとして利用できることがわかった。
論文 参考訳(メタデータ) (2024-04-02T09:54:51Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - Datasets for Large Language Models: A Comprehensive Survey [37.153302283062004]
この調査は、LLMデータセットの基本的側面を5つの観点から統合し、分類する。
この調査は、一般的な課題を浮き彫りにし、今後の調査への道のりを指摘している。
調査対象のデータサイズは、事前トレーニングのコーパスが774.5TB、他のデータセットが700万インスタンスを超えている。
論文 参考訳(メタデータ) (2024-02-28T04:35:51Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z) - Automated Claim Matching with Large Language Models: Empowering
Fact-Checkers in the Fight Against Misinformation [11.323961700172175]
FACT-GPTは、大規模言語モデルを用いたファクトチェックのクレームマッチングフェーズを自動化するために設計されたフレームワークである。
このフレームワークは、ファクトチェッカーによって以前否定された主張を支持したり、否定したりする新しいソーシャルメディアコンテンツを識別する。
FACT-GPTを公衆衛生に関連するソーシャルメディアコンテンツのデータセットとして評価した。
論文 参考訳(メタデータ) (2023-10-13T16:21:07Z) - LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities
and Future Opportunities [68.86209486449924]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。
我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文 参考訳(メタデータ) (2023-05-22T15:56:44Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。