論文の概要: Conceptualized Representation Learning for Chinese Biomedical Text
Mining
- arxiv url: http://arxiv.org/abs/2008.10813v1
- Date: Tue, 25 Aug 2020 04:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 03:43:49.752605
- Title: Conceptualized Representation Learning for Chinese Biomedical Text
Mining
- Title(参考訳): 中国のバイオメディカルテキストマイニングにおける概念表現学習
- Authors: Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao,
Nengwei Hua
- Abstract要約: 本稿では,最近導入された言語モデルBERTが,中国のバイオメディカルコーパスにどのように適応できるかを検討する。
漢文では、その複雑な構造と多種多様な句の組み合わせにより、より困難である。
- 参考スコア(独自算出の注目度): 14.77516568767045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biomedical text mining is becoming increasingly important as the number of
biomedical documents and web data rapidly grows. Recently, word representation
models such as BERT has gained popularity among researchers. However, it is
difficult to estimate their performance on datasets containing biomedical texts
as the word distributions of general and biomedical corpora are quite
different. Moreover, the medical domain has long-tail concepts and
terminologies that are difficult to be learned via language models. For the
Chinese biomedical text, it is more difficult due to its complex structure and
the variety of phrase combinations. In this paper, we investigate how the
recently introduced pre-trained language model BERT can be adapted for Chinese
biomedical corpora and propose a novel conceptualized representation learning
approach. We also release a new Chinese Biomedical Language Understanding
Evaluation benchmark (\textbf{ChineseBLUE}). We examine the effectiveness of
Chinese pre-trained models: BERT, BERT-wwm, RoBERTa, and our approach.
Experimental results on the benchmark show that our approach could bring
significant gain. We release the pre-trained model on GitHub:
https://github.com/alibaba-research/ChineseBLUE.
- Abstract(参考訳): バイオメディカル・テキスト・マイニングは, バイオメディカル・ドキュメントやWebデータの増加に伴い, ますます重要になりつつある。
近年,BERT などの単語表現モデルが研究者の間で人気を集めている。
しかし, 一般用および生物用コーパスの単語分布が異なるため, バイオメディカルテキストを含むデータセット上での性能評価は困難である。
さらに、医学領域には長い尾の概念や用語があり、言語モデルを通して学べるのは難しい。
中国の生物医学文献では、複雑な構造と句の組み合わせが多様であるため、より困難である。
本稿では,最近導入された事前学習型言語モデルBERTを中国の生物医学コーパスに適用し,新しい概念化表現学習手法を提案する。
また、新しい中国語バイオメディカル言語理解評価ベンチマーク(\textbf{ ChineseBLUE})もリリースした。
我々は,中国の事前学習モデルであるBERT,BERT-wwm,RoBERTaの有効性について検討した。
ベンチマーク実験の結果,我々のアプローチは大きな利益をもたらす可能性が示唆された。
トレーニング済みのモデルをGitHubでリリースしています。
関連論文リスト
- Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - BioLORD-2023: Semantic Textual Representations Fusing LLM and Clinical
Knowledge Graph Insights [15.952942443163474]
バイオメディカルな概念と文の高忠実度表現を得るための新しい最先端手法を提案する。
これまでの技術状況よりも一貫した、実質的なパフォーマンス向上を実証する。
英語のための最新のバイオメディカルモデルに加えて、50以上の言語と互換性のある多言語モデルを蒸留してリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:46:17Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - RuBioRoBERTa: a pre-trained biomedical language model for Russian
language biomedical text mining [117.56261821197741]
ロシア語生物医学テキストマイニングのためのBERTベースのモデルをいくつか提示する。
これらのモデルは、ロシアの生物医学領域で自由に利用できるテキストのコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2022-04-08T09:18:59Z) - Building Chinese Biomedical Language Models via Multi-Level Text
Discrimination [24.992542216072152]
我々は,新しい事前学習フレームワークを組み込んだ中国語の生物医学的PLMであるeHealthを紹介した。
この新たなフレームワークは、トークンレベルとシーケンスレベルの両方の識別を通じて、eHealthを差別者として訓練する。
EHealthはトークンレベルとシーケンスレベルの両方で言語セマンティクスを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-14T10:43:28Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z) - Pre-training technique to localize medical BERT and enhance biomedical
BERT [0.0]
高品質で大容量のデータベースが公開されていないドメインでうまく機能する特定のBERTモデルを訓練することは困難である。
本稿では,アップサンプリングと増幅語彙の同時事前学習という,一つの選択肢による1つの介入を提案する。
我が国の医療用BERTは,医学文書分類タスクにおいて,従来のベースラインおよび他のBERTモデルよりも優れていた。
論文 参考訳(メタデータ) (2020-05-14T18:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。