論文の概要: CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2106.08087v1
- Date: Tue, 15 Jun 2021 12:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:16:21.431842
- Title: CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark
- Title(参考訳): CBLUE: 中国のバイオメディカル言語理解評価ベンチマーク
- Authors: Ningyu Zhang, Zhen Bi, Xiaozhuan Liang, Lei Li, Xiang Chen, Shumin
Deng, Luoqiu Li, Xin Xie, Hongbin Ye, Xin Shang, Kangping Yin, Chuanqi Tan,
Jian Xu, Mosha Chen, Fei Huang, Luo Si, Yuan Ni, Guotong Xie, Zhifang Sui,
Baobao Chang, Hui Zong, Zheng Yuan, Linfeng Li, Jun Yan, Hongying Zan, Kunli
Zhang, Huajun Chen, Buzhou Tang, Qingcai Chen
- Abstract要約: 中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
- 参考スコア(独自算出の注目度): 51.38557174322772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence (AI), along with the recent progress in biomedical
language understanding, is gradually changing medical practice. With the
development of biomedical language understanding benchmarks, AI applications
are widely used in the medical field. However, most benchmarks are limited to
English, which makes it challenging to replicate many of the successes in
English for other languages. To facilitate research in this direction, we
collect real-world biomedical data and present the first Chinese Biomedical
Language Understanding Evaluation (CBLUE) benchmark: a collection of natural
language understanding tasks including named entity recognition, information
extraction, clinical diagnosis normalization, single-sentence/sentence-pair
classification, and an associated online platform for model evaluation,
comparison, and analysis. To establish evaluation on these tasks, we report
empirical results with the current 11 pre-trained Chinese models, and
experimental results show that state-of-the-art neural models perform by far
worse than the human ceiling. Our benchmark is released at
\url{https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414&lang=en-us}.
- Abstract(参考訳): 人工知能(AI)は、最近のバイオメディカル言語理解の進歩とともに、徐々に医療実践を変えつつある。
バイオメディカル言語理解ベンチマークの開発により、AIアプリケーションは医療分野で広く利用されている。
しかし、ほとんどのベンチマークは英語に限られており、他の言語での成功の多くを複製することは困難である。
そこで本研究では,実世界のバイオメディカルデータを集め,中国初のバイオメディカル言語理解評価(cblue)ベンチマークを提示する。名前付きエンティティ認識,情報抽出,臨床診断の正規化,single-sentence/sentence-pair分類,モデル評価,比較,分析のための関連オンラインプラットフォームなど,自然言語理解タスクのコレクションである。
これらの課題に対する評価を確立するために,現在の11種類の中国語モデルを用いて実験結果を報告し,その実験結果から,最先端のニューラルモデルの方が人間の天井よりもはるかに悪い結果が得られた。
私たちのベンチマークは \url{https://tianchi.aliyun.com/dataset/datadetail?dataid=95414&lang=en-us}でリリースされています。
関連論文リスト
- Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - DrBenchmark: A Large Language Understanding Evaluation Benchmark for
French Biomedical Domain [8.246368441549967]
我々はDrBenchmarkと呼ばれるフランスの生物医学言語理解ベンチマークを公開している。
名前付き認識、音声タグ付け、質問回答、意味的テキスト類似性、分類を含む20のタスクを含む。
一般およびバイオメディカル特化データに基づいて8つの最先端の事前訓練マスク付き言語モデル (MLM) を評価し, それらの言語間能力を評価する。
論文 参考訳(メタデータ) (2024-02-20T23:54:02Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Explanatory Argument Extraction of Correct Answers in Resident Medical
Exams [5.399800035598185]
本稿では, 正しい回答に対する説明的議論だけでなく, 誤った回答が正しい理由を推論するための議論を含む新しいデータセットを提案する。
このベンチマークにより,医師が作成した正しい回答の説明を識別する新しい抽出タスクを構築できる。
論文 参考訳(メタデータ) (2023-12-01T13:22:35Z) - PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain [24.411904114158673]
我々は、中国生物医学言語理解評価(CBlue)ベンチマークを大規模なプロンプトチューニングベンチマークであるPromptCBlueに再構築した。
我々のベンチマークは、幅広いバイオメディカルタスクにおいて、中国のLCMのマルチタスク能力を評価するのに適したテストベッドであり、オンラインプラットフォームである。
論文 参考訳(メタデータ) (2023-10-22T02:20:38Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - Conceptualized Representation Learning for Chinese Biomedical Text
Mining [14.77516568767045]
本稿では,最近導入された言語モデルBERTが,中国のバイオメディカルコーパスにどのように適応できるかを検討する。
漢文では、その複雑な構造と多種多様な句の組み合わせにより、より困難である。
論文 参考訳(メタデータ) (2020-08-25T04:41:35Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。