論文の概要: Korean Bio-Medical Corpus (KBMC) for Medical Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2403.16158v1
- Date: Sun, 24 Mar 2024 13:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 17:15:57.974521
- Title: Korean Bio-Medical Corpus (KBMC) for Medical Named Entity Recognition
- Title(参考訳): 医療名義認識のための韓国バイオメディカルコーパス(KBMC)
- Authors: Sungjoo Byun, Jiseung Hong, Sumin Park, Dongjun Jang, Jean Seo, Minseok Kim, Chaeyoung Oh, Hyopil Shin,
- Abstract要約: KBMC (Korean Bio-Medical Corpus) データセットの構築にChatGPTを用いた。
KBMCデータセットでは、一般的な韓国のNERデータセットでトレーニングされたモデルと比較して、医療NERのパフォーマンスが20%向上した。
- 参考スコア(独自算出の注目度): 2.796250176763503
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Named Entity Recognition (NER) plays a pivotal role in medical Natural Language Processing (NLP). Yet, there has not been an open-source medical NER dataset specifically for the Korean language. To address this, we utilized ChatGPT to assist in constructing the KBMC (Korean Bio-Medical Corpus), which we are now presenting to the public. With the KBMC dataset, we noticed an impressive 20% increase in medical NER performance compared to models trained on general Korean NER datasets. This research underscores the significant benefits and importance of using specialized tools and datasets, like ChatGPT, to enhance language processing in specialized fields such as healthcare.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、医学自然言語処理(NLP)において重要な役割を果たす。
しかし、韓国語専用のオープンソース医療用NERデータセットは存在しない。
そこで我々はChatGPTを用いてKBMC (Korean Bio-Medical Corpus) の構築を支援した。
KBMCデータセットでは、一般的な韓国のNERデータセットでトレーニングされたモデルと比較して、医療NERのパフォーマンスが20%向上した。
この研究は、医療などの専門分野における言語処理を強化するために、ChatGPTのような特殊なツールやデータセットを使用することの、大きなメリットと重要性を強調している。
関連論文リスト
- LIMIS: Towards Language-based Interactive Medical Image Segmentation [58.553786162527686]
LIMISは、最初の純粋言語に基づく対話型医療画像分割モデルである。
我々は、Grounded SAMを医療領域に適応させ、言語に基づくモデルインタラクション戦略を設計する。
LIMISを3つの公開医療データセット上で,パフォーマンスとユーザビリティの観点から評価した。
論文 参考訳(メタデータ) (2024-10-22T12:13:47Z) - On Creating an English-Thai Code-switched Machine Translation in Medical Domain [2.0737832185611524]
医療領域における機械翻訳(MT)は、医療の質の向上と医療知識の普及に重要な役割を果たしている。
英語とタイ語によるMT技術の進歩にもかかわらず、一般的なMTアプローチは、医学用語を正確に翻訳できないため、医療分野では不十分であることが多い。
我々の研究は翻訳精度の向上だけでなく、英語の医学用語の維持も優先している。
論文 参考訳(メタデータ) (2024-10-21T17:25:32Z) - INSIGHTBUDDY-AI: Medication Extraction and Entity Linking using Large Language Models and Ensemble Learning [6.849511893206566]
医療用NLP研究において, 医療用NLPの抽出とマイニングが重要な役割を担っている。
本研究では,薬品のテキストマイニング作業における現状のLCMとその関連属性,例えば投与量,経路,強度,副作用について検討する。
アンサンブル学習の結果,個々の微調整ベースモデルBERT, RoBERTa, RoBERTa-L, BioBERT, BioClinicalBERT, BioMedRoBERTa, ClinicalBERT, PubMedBERTよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-28T22:06:06Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - GAMedX: Generative AI-based Medical Entity Data Extractor Using Large Language Models [1.123722364748134]
本稿では,Large Language Models(LLMs)を利用した名前付きエンティティ認識(NER)アプローチであるGAMedXを紹介する。
この方法論は、NERのためのオープンソースのLCMを統合し、特殊な医学用語の複雑さをナビゲートするために、連鎖プロンプトとピダンティックスキーマを構造化出力に利用している。
その結果, 評価データセットの1つに対して, 98%の精度でROUGE F1の有意なスコアが得られた。
論文 参考訳(メタデータ) (2024-05-31T02:53:22Z) - Advancing Italian Biomedical Information Extraction with
Transformers-based Models: Methodological Insights and Multicenter Practical
Application [0.27027468002793437]
インフォメーション抽出は、自動化されたテキストマイニングパイプラインを使用することで、臨床実践者が限界を克服するのに役立つ。
我々は、最初のイタリアの神経心理学的名前付きエンティティ認識データセットであるPsyNITを作成し、それをトランスフォーマーベースのモデルの開発に利用した。
i)一貫性のあるアノテーションプロセスの重要な役割と(ii)古典的なメソッドと“低リソース”なアプローチを組み合わせた微調整戦略です。
論文 参考訳(メタデータ) (2023-06-08T16:15:46Z) - Extrinsic Factors Affecting the Accuracy of Biomedical NER [0.1529342790344802]
バイオメディカル・ネーム・エンティティ・認識(NER)は、臨床テキスト中の構造化情報を特定することを目的とした批判的タスクである。
バイオメディカル領域のNERは、限られたデータ可用性のために困難である。
論文 参考訳(メタデータ) (2023-05-29T15:29:49Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Nested Named Entity Recognition as Holistic Structure Parsing [92.8397338250383]
本研究は,文中の全入れ子NEを全体構造としてモデル化し,全体構造解析アルゴリズムを提案する。
実験により、我々のモデルは、最先端にアプローチしたり、あるいは達成したりするような、広く使われているベンチマークで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2022-04-17T12:48:20Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。