論文の概要: SINA-BERT: A pre-trained Language Model for Analysis of Medical Texts in
Persian
- arxiv url: http://arxiv.org/abs/2104.07613v1
- Date: Thu, 15 Apr 2021 17:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 14:58:56.890607
- Title: SINA-BERT: A pre-trained Language Model for Analysis of Medical Texts in
Persian
- Title(参考訳): SINA-BERT : ペルシアの医学テキスト分析のための事前学習言語モデル
- Authors: Nasrin Taghizadeh and Ehsan Doostmohammadi and Elham Seifossadat and
Hamid R. Rabiee and Maedeh S. Tahaei
- Abstract要約: SINA-BERT は BERT (Devlin et al) で事前訓練された言語モデルである。
我々はSINA-BERTを用いて、医学的質問の分類、医学的感情分析、医学的質問の検索を行う。
それぞれのタスクに対して,ペルシャの注釈付きデータセットをトレーニングと評価のために開発し,特に複雑で長い医学的質問に対する各タスクのデータ表現を学習した。
同じアーキテクチャがタスク間で使用されているため、SINA-BERTは以前はペルシア語で使用できたBERTベースのモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 4.743074355342794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We have released Sina-BERT, a language model pre-trained on BERT (Devlin et
al., 2018) to address the lack of a high-quality Persian language model in the
medical domain. SINA-BERT utilizes pre-training on a large-scale corpus of
medical contents including formal and informal texts collected from a variety
of online resources in order to improve the performance on health-care related
tasks. We employ SINA-BERT to complete following representative tasks:
categorization of medical questions, medical sentiment analysis, and medical
question retrieval. For each task, we have developed Persian annotated data
sets for training and evaluation and learnt a representation for the data of
each task especially complex and long medical questions. With the same
architecture being used across tasks, SINA-BERT outperforms BERT-based models
that were previously made available in the Persian language.
- Abstract(参考訳): Sina-BERT は BERT (Devlin et al., 2018) で事前トレーニングされた言語モデルで、医療領域における高品質なペルシア語モデルの欠如に対処する。
SINA-BERTは、様々なオンラインリソースから収集されたフォーマルテキストや非公式テキストを含む大規模な医療コンテンツコーパスの事前学習を利用して、医療関連タスクのパフォーマンスを向上させる。
我々はSINA-BERTを用いて、医学的質問の分類、医学的感情分析、医学的質問の検索を行う。
それぞれのタスクに対して,ペルシャの注釈付きデータセットをトレーニングと評価のために開発し,特に複雑で長い医学的質問に対する各タスクのデータ表現を学習した。
同じアーキテクチャがタスク間で使用されているため、SINA-BERTは以前にペルシア語で使用できたBERTベースのモデルより優れている。
関連論文リスト
- ChiMed-GPT: A Chinese Medical Large Language Model with Full Training
Regime and Better Alignment to Human Preferences [55.42521181558716]
中国医学領域向けに設計された新しいベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、コンテキスト長を4,096トークンに拡大し、事前トレーニング、SFT、RLHFを含む総合的なトレーニング体制を実行している。
情報抽出,質問応答,対話生成などの実世界のタスクの評価は,一般的なドメインLLMよりもChiMed-GPTの方が優れた性能を示している。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue
System Development [1.4315915057750197]
ベトナムでは,文レベルおよびエンティティレベルのアノテーションを持つ患者からの医療質問のデータセットを公開している。
本研究では,スパンノイズモデルを用いた簡易な自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-27T17:59:53Z) - RuBioRoBERTa: a pre-trained biomedical language model for Russian
language biomedical text mining [117.56261821197741]
ロシア語生物医学テキストマイニングのためのBERTベースのモデルをいくつか提示する。
これらのモデルは、ロシアの生物医学領域で自由に利用できるテキストのコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2022-04-08T09:18:59Z) - RuMedBench: A Russian Medical Language Understanding Benchmark [58.99199480170909]
本稿では,複数のタスクタイプをカバーするオープンなロシア語医療言語理解ベンチマークについて述べる。
我々は、新しいタスクのための統一されたフォーマットラベリング、データ分割、評価メトリクスを作成します。
シングルナンバーメトリックは、ベンチマークに対処するモデルの能力を表す。
論文 参考訳(メタデータ) (2022-01-17T16:23:33Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Multilingual Medical Question Answering and Information Retrieval for
Rural Health Intelligence Access [1.0499611180329804]
いくつかの発展途上国の農村部では、高品質な医療、医療インフラ、専門的診断へのアクセスはほとんど利用できない。
このような医療アクセスの欠如、患者の以前の健康記録の欠如、および先住民語での情報の置換によるいくつかの死を、容易に防ぐことができる。
本稿では,機械学習とNLP(Natural Language Processing)技術における現象の進展を利用して,低リソース・多言語・予備的ファーストポイント・オブ・コンタクト・メディカルアシスタントを設計するアプローチについて述べる。
論文 参考訳(メタデータ) (2021-06-02T16:05:24Z) - Conceptualized Representation Learning for Chinese Biomedical Text
Mining [14.77516568767045]
本稿では,最近導入された言語モデルBERTが,中国のバイオメディカルコーパスにどのように適応できるかを検討する。
漢文では、その複雑な構造と多種多様な句の組み合わせにより、より困難である。
論文 参考訳(メタデータ) (2020-08-25T04:41:35Z) - Knowledge-Empowered Representation Learning for Chinese Medical Reading
Comprehension: Task, Model and Resources [36.960318276653986]
医療領域を対象としたマルチターゲットMRCタスクを導入し,医療質問に対する回答とそれに対応する文章を同時に予測することを目的とする。
本稿では, 医学知識を事前学習言語モデルに融合させる, タスクのための中国の医療用BERTモデル(CMedBERT)を提案する。
実験の結果,CMedBERTはコンテキスト認識と知識認識のトークン表現を融合することにより,強いベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2020-08-24T11:23:28Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。