論文の概要: Evaluating the Performance of LLMs on Technical Language Processing tasks
- arxiv url: http://arxiv.org/abs/2403.15503v1
- Date: Thu, 21 Mar 2024 23:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 22:22:15.620648
- Title: Evaluating the Performance of LLMs on Technical Language Processing tasks
- Title(参考訳): 技術言語処理タスクにおけるLLMの性能評価
- Authors: Andrew Kernycky, David Coleman, Christopher Spence, Udayan Das,
- Abstract要約: 本稿では,技術言語処理タスクの評価研究の結果について述べる。
アメリカ合衆国連邦規制法(CFR)第47条は、連邦通信委員会(FCC)が管理する商業電気通信の規制について記述している。
なぜなら、我々のより大きな研究は、無線スペクトラムガバナンスに関連する情報や、ダイナミックスペクトラムアクセスをサポートするために、自動化された方法で使用することに関する問題を懸念しているからです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper we present the results of an evaluation study of the perfor-mance of LLMs on Technical Language Processing tasks. Humans are often confronted with tasks in which they have to gather information from dispar-ate sources and require making sense of large bodies of text. These tasks can be significantly complex for humans and often require deep study including rereading portions of a text. Towards simplifying the task of gathering in-formation we evaluated LLMs with chat interfaces for their ability to provide answers to standard questions that a human can be expected to answer based on their reading of a body of text. The body of text under study is Title 47 of the United States Code of Federal Regulations (CFR) which describes regula-tions for commercial telecommunications as governed by the Federal Com-munications Commission (FCC). This has been a body of text of interest be-cause our larger research concerns the issue of making sense of information related to Wireless Spectrum Governance and usage in an automated manner to support Dynamic Spectrum Access. The information concerning this wireless spectrum domain is found in many disparate sources, with Title 47 of the CFR being just one of many. Using a range of LLMs and providing the required CFR text as context we were able to quantify the performance of those LLMs on the specific task of answering the questions below.
- Abstract(参考訳): 本稿では,技術言語処理タスクにおけるLLMのパーフォルマンス評価結果について述べる。
人間はしばしば、異種の情報源から情報を収集し、大きなテキストの体感を必要とするタスクに直面している。
これらのタスクは人間にとって非常に複雑であり、しばしばテキストの読み直しを含む深い研究を必要とする。
テキストの読み上げによる回答を期待できるような標準質問に対する回答を提供するため,チャットインタフェースを用いたLLMを評価対象とした情報収集作業の簡略化に向けて検討を行った。
研究中のテキストの本体は、連邦通信委員会(FCC)が管理する商用電気通信のための規則を記述した米国連邦規制法(CFR)第47条である。
なぜなら、我々のより大きな研究は、無線スペクトラムガバナンスやダイナミックスペクトラムアクセスをサポートするために、自動化された方法で使用法に関する情報を理解するという問題に悩まされているからです。
この無線スペクトル領域に関する情報は、多くの異なるソースで見出されており、CFRのTitle 47は多くのものの1つである。
一連のLLMを使用して、必要なCFRテキストをコンテキストとして提供することで、以下の質問に答える特定のタスクにおいて、それらのLLMのパフォーマンスを定量化することができます。
関連論文リスト
- Unmasking the Limits of Large Language Models: A Systematic Evaluation of Masked Text Processing Ability through MskQA and MskCal [0.0]
本稿では,多言語モデル (LLM) の限界に光を当て,マスキングされたテキストの処理能力を厳格に評価する。
MskQA、RealtimeQA、MskCalの2つの新しいタスクを紹介し、マスク付き算術問題に対する数値推論を評価する。
論文 参考訳(メタデータ) (2024-11-08T16:07:47Z) - Cross-Data Knowledge Graph Construction for LLM-enabled Educational Question-Answering System: A Case Study at HCMUT [2.8000537365271367]
大規模言語モデル(LLM)は活発な研究トピックとして現れている。
LLMはイベントの記憶、新しい情報の導入、ドメイン固有の問題や幻覚への対処において課題に直面している。
本稿では,複数のデータソースから知識グラフを自動的に構築する手法を提案する。
論文 参考訳(メタデータ) (2024-04-14T16:34:31Z) - TM-TREK at SemEval-2024 Task 8: Towards LLM-Based Automatic Boundary Detection for Human-Machine Mixed Text [0.0]
本稿では,人文と機械生成の混合テキストにおける境界を識別する大規模言語モデルの能力について検討する。
LLMのアンサンブルモデルは,SemEval'24コンペティションタスク8の「Human-Machine Mixed Text Detection」サブタスクにおいて,第1位を獲得した。
論文 参考訳(メタデータ) (2024-04-01T03:54:42Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Think from Words(TFW): Initiating Human-Like Cognition in Large Language
Models Through Think from Words for Japanese Text-level Classification [0.0]
TFW(Sink from Words)は、単語レベルで理解プロセスを開始し、テキスト全体を包含するように拡張する。
単語レベル情報付きTFW(TFW Extra)は、単語レベルデータを追加して理解を深める。
LLMのテキスト理解における単語レベルの情報型の影響について検討した。
論文 参考訳(メタデータ) (2023-12-06T12:34:46Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - A Self-enhancement Approach for Domain-specific Chatbot Training via
Knowledge Mining and Digest [62.63606958140248]
大規模言語モデル(LLM)は、特定のドメインで複雑な知識要求クエリを扱う際に、しばしば困難に直面する。
本稿では、ドメイン固有のテキストソースから関連知識を効果的に抽出し、LLMを強化する新しいアプローチを提案する。
我々は知識マイナー、すなわちLLMinerを訓練し、関連する文書から質問応答対を自律的に抽出する。
論文 参考訳(メタデータ) (2023-11-17T16:09:10Z) - When does In-context Learning Fall Short and Why? A Study on
Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。
ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。
我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文 参考訳(メタデータ) (2023-11-15T14:26:30Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z) - ExplainCPE: A Free-text Explanation Benchmark of Chinese Pharmacist
Examination [26.878606171228448]
既存の説明データセットは主に英語の一般的な知識に関する質問である。
有理性QAデータセットの生成における言語バイアスと医療資源の欠如に対処するために, ExplainCPEを提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。