論文の概要: Utilizing Large Language Models for Named Entity Recognition in Traditional Chinese Medicine against COVID-19 Literature: Comparative Study
- arxiv url: http://arxiv.org/abs/2408.13501v1
- Date: Sat, 24 Aug 2024 06:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 19:19:21.609409
- Title: Utilizing Large Language Models for Named Entity Recognition in Traditional Chinese Medicine against COVID-19 Literature: Comparative Study
- Title(参考訳): 古代中国医学におけるエンティティ認識のための大規模言語モデルを用いた新型コロナウイルス文学の比較研究
- Authors: Xu Tong, Nina Smirnova, Sharmila Upadhyaya, Ran Yu, Jack H. Culbert, Chao Sun, Wolfgang Otto, Philipp Mayr,
- Abstract要約: 新型コロナウイルスに対するTCMに関する389項目のデータセットを作成し,その内48項目に3つのドメインに属する6種類のエンティティを手動で注釈付けした。
次に、ChatGPT(GPT-3.5およびGPT-4)と4つの最先端BERTベースの質問応答(QA)モデルを用いて、6つのエンティティタイプに対してNERタスクを実行した。
- 参考スコア(独自算出の注目度): 4.680391123850371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: To explore and compare the performance of ChatGPT and other state-of-the-art LLMs on domain-specific NER tasks covering different entity types and domains in TCM against COVID-19 literature. Methods: We established a dataset of 389 articles on TCM against COVID-19, and manually annotated 48 of them with 6 types of entities belonging to 3 domains as the ground truth, against which the NER performance of LLMs can be assessed. We then performed NER tasks for the 6 entity types using ChatGPT (GPT-3.5 and GPT-4) and 4 state-of-the-art BERT-based question-answering (QA) models (RoBERTa, MiniLM, PubMedBERT and SciBERT) without prior training on the specific task. A domain fine-tuned model (GSAP-NER) was also applied for a comprehensive comparison. Results: The overall performance of LLMs varied significantly in exact match and fuzzy match. In the fuzzy match, ChatGPT surpassed BERT-based QA models in 5 out of 6 tasks, while in exact match, BERT-based QA models outperformed ChatGPT in 5 out of 6 tasks but with a smaller F-1 difference. GPT-4 showed a significant advantage over other models in fuzzy match, especially on the entity type of TCM formula and the Chinese patent drug (TFD) and ingredient (IG). Although GPT-4 outperformed BERT-based models on entity type of herb, target, and research method, none of the F-1 scores exceeded 0.5. GSAP-NER, outperformed GPT-4 in terms of F-1 by a slight margin on RM. ChatGPT achieved considerably higher recalls than precisions, particularly in the fuzzy match. Conclusions: The NER performance of LLMs is highly dependent on the entity type, and their performance varies across application scenarios. ChatGPT could be a good choice for scenarios where high recall is favored. However, for knowledge acquisition in rigorous scenarios, neither ChatGPT nor BERT-based QA models are off-the-shelf tools for professional practitioners.
- Abstract(参考訳): 目的: 新型コロナウイルスの文献に対するTCM内のさまざまなエンティティタイプやドメインをカバーするドメイン固有のNERタスクにおいて、ChatGPTや他の最先端のLLMのパフォーマンスを探索し、比較する。
方法: 新型コロナウイルスに対するTCMに関する389項目のデータセットを作成し, その内48項目に3つのドメインに属する6種類のエンティティを手動で注釈付けし, LLMのNER性能を評価した。
次に,ChatGPT (GPT-3.5, GPT-4) と4つの最先端BERTベースのQAモデル (RoBERTa, MiniLM, PubMedBERT, SciBERT) を用いて,特定のタスクを事前にトレーニングすることなく,NERタスクを実行した。
ドメインファインチューニングモデル (GSAP-NER) も包括的な比較に応用された。
結果: LLMの総合的な性能は, 正確な一致とファジィマッチにおいて有意に異なっていた。
ファジィマッチでは、ChatGPTは6タスク中5タスクでBERTベースのQAモデルを上回ったが、正確なマッチでは、BERTベースのQAモデルは6タスク中5タスクでChatGPTを上回ったが、F-1の差は小さい。
GPT-4はファジィマッチにおける他のモデル、特にTCM式と中国の特許医薬品(TFD)および成分(IG)の実体型に対して有意な優位性を示した。
GPT-4は、エンティティタイプであるハーブ、ターゲット、研究方法においてBERTベースのモデルよりも優れていたが、F-1のスコアは0.5を超えなかった。
GSAP-NERはGPT-4よりもF-1よりもRMにわずかに差があった。
ChatGPTは、特にファジィマッチにおいて、精度よりもかなり高いリコールを達成した。
結論: LLMのNERパフォーマンスはエンティティタイプに大きく依存しており、そのパフォーマンスはアプリケーションのシナリオによって異なります。
高いリコールが好まれるシナリオでは、ChatGPTがよい選択になるかも知れません。
しかし、厳密なシナリオでの知識獲得については、ChatGPTやBERTベースのQAモデルはプロの実践者のための既製のツールではない。
関連論文リスト
- RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - Efficient argument classification with compact language models and ChatGPT-4 refinements [0.0]
本稿では,議論マイニングにおける深層学習モデルの比較研究について述べる。
本稿では,BERTアーキテクチャに基づくアンサンブルモデルと,微調整モデルとしてのChatGPT-4について述べる。
以上の結果から,BERT+ChatGPT-4は他のTransformerベースモデルやLSTMベースモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-20T16:24:10Z) - Large Language Models as Zero-shot Dialogue State Tracker through Function Calling [42.00097476584174]
本稿では,大言語モデル(LLM)を用いた対話状態追跡の関数呼び出しによる解法を提案する。
この方法はゼロショットDSTを改善し、広範囲のデータ収集やモデルチューニングなしに多様なドメインに適応できる。
提案手法は,オープン・ソースとプロプライエタリ・LLMの両面において,極めて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-02-16T06:13:18Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Taqyim: Evaluating Arabic NLP Tasks Using ChatGPT Models [6.145834902689888]
大規模言語モデル(LLM)は、微調整を必要とせず、様々な下流タスクにおける印象的なパフォーマンスを示している。
英語に比べて訓練率が低いにもかかわらず、これらのモデルは他の言語でも顕著な能力を示す。
本研究では,7つの異なるNLPタスクにおいて,GPT-3.5およびGPT-4モデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-28T15:54:29Z) - GPT-3.5, GPT-4, or BARD? Evaluating LLMs Reasoning Ability in Zero-Shot
Setting and Performance Boosting Through Prompts [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
本稿では, GPT-3.5, GPT-4, BARDモデルの性能について, 様々な推論タスクについて, 徹底的な技術的評価を行うことにより検討する。
論文 参考訳(メタデータ) (2023-05-21T14:45:17Z) - Generalized Planning in PDDL Domains with Pretrained Large Language
Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文 参考訳(メタデータ) (2023-05-18T14:48:20Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。