論文の概要: Hierarchical BERT for Medical Document Understanding
- arxiv url: http://arxiv.org/abs/2204.09600v1
- Date: Fri, 11 Mar 2022 03:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 09:15:35.612989
- Title: Hierarchical BERT for Medical Document Understanding
- Title(参考訳): 医用文書理解のための階層型BERT
- Authors: Ning Zhang and Maciej Jankowski
- Abstract要約: 長い医療用文書理解タスクのための医療用文書BERT(MDBERT)を提案する。
バニラBERTソリューションと比較して、MDBERTはMIMIC-IIIデータセットで性能を20%向上させる。
- 参考スコア(独自算出の注目度): 10.868451693808483
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Medical document understanding has gained much attention recently. One
representative task is the International Classification of Disease (ICD)
diagnosis code assignment. Existing work adopts either RNN or CNN as the
backbone network because the vanilla BERT cannot handle well long documents
(>2000 to kens). One issue shared across all these approaches is that they are
over specific to the ICD code assignment task, losing generality to give the
whole document-level and sentence-level embedding. As a result, it is not
straight-forward to direct them to other downstream NLU tasks. Motivated by
these observations, we propose Medical Document BERT (MDBERT) for long medical
document understanding tasks. MDBERT is not only effective in learning
representations at different levels of semantics but efficient in encoding long
documents by leveraging a bottom-up hierarchical architecture. Compared to
vanilla BERT solutions: 1, MDBERT boosts the performance up to relatively 20%
on the MIMIC-III dataset, making it comparable to current SOTA solutions; 2, it
cuts the computational complexity on self-attention modules to less than 1/100.
Other than the ICD code assignment, we conduct a variety of other NLU tasks on
a large commercial dataset named as TrialTrove, to showcase MDBERT's strength
in delivering different levels of semantics.
- Abstract(参考訳): 医学文書の理解が近年注目を集めている。
国際疾病分類法 (icd) は、国際疾病分類法 (icd) の分類法である。
既存の作業では、バニラBERTが長いドキュメント(>2000 to kens)を処理できないため、バックボーンネットワークとしてRNNまたはCNNを採用している。
これらすべてのアプローチで共有されている問題のひとつは、それらはicdコード割り当てタスクに特有であり、ドキュメントレベルと文レベルの埋め込み全体に汎用性を失うことだ。
結果として、それらを他の下流のNLUタスクに向けるのはストレートフォワードではない。
本研究の目的は,長い医療文書理解タスクのための医療文書BERT(MDBERT)を提案することである。
MDBERTはセマンティクスの異なるレベルで表現を学習するだけでなく、ボトムアップ階層アーキテクチャを活用して長文のエンコードにも有効である。
1 MDBERTはMIMIC-IIIデータセットで性能を20%向上し、現在のSOTAソリューションに匹敵する。
ICD コード代入以外にも,TrialTrove という名称の大規模商用データセット上で,さまざまな NLU タスクを実行し,MDBERT の持つさまざまなレベルのセマンティクス提供の強みを示す。
関連論文リスト
- On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Hierarchical Neural Network Approaches for Long Document Classification [3.6700088931938835]
我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。
提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。
USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
論文 参考訳(メタデータ) (2022-01-18T07:17:40Z) - Towards BERT-based Automatic ICD Coding: Limitations and Opportunities [6.2211479935811775]
バイオメディカル言語理解のための最先端トランスフォーマモデルであるPubMedBERTを用いたICD符号化について検討する。
ICD符号化におけるBERTモデルの主な制限は,長いテキストでモデルを微調整することの難しさにある。
BERTベースのICDコーディングを改善するための主な必要性として、長いテキストから情報を集約するより良い方法を挙げます。
論文 参考訳(メタデータ) (2021-04-14T09:12:53Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Hierarchical Multitask Learning Approach for BERT [0.36525095710982913]
BERTは、マスク付き言語モデル(masked LM)と次の文予測(NSP)である2つのタスクを解くことで埋め込みを学習する
BERT事前学習には階層型マルチタスク学習アプローチを採用する。
この結果から,タスク階層を事前学習に組み込むことで,組込み性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-10-17T09:23:04Z) - Layer-wise Guided Training for BERT: Learning Incrementally Refined
Document Representations [11.46458298316499]
本研究では, 細管BERTの構造化手法を提案する。
具体的には、大規模マルチラベルテキスト分類(LMTC)に焦点を当てる。
我々のアプローチは、特定の階層レベルからラベルを予測するために、特定のBERT層をガイドする。
論文 参考訳(メタデータ) (2020-10-12T14:56:22Z) - BERT-XML: Large Scale Automated ICD Coding Using BERT Pretraining [6.241494296494434]
EHRノートから大規模自動ICD符号化のための機械学習モデルBERT-XMLを提案する。
EHRのノートのスクラッチからBERTモデルをトレーニングし、EHRのタスクに適した語彙で学習します。
我々は、数百万の EHR ノートを用いて、数千のユニークなICD コードを予測する最初の大規模 ICD-10 分類モデルを作成する。
論文 参考訳(メタデータ) (2020-05-26T21:12:43Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z) - A Study on Efficiency, Accuracy and Document Structure for Answer
Sentence Selection [112.0514737686492]
本稿では,単語関連エンコーダとともに,原語階の内在的構造を活用すれば,競争的な結果が得られることを論じる。
私たちのモデルはWikiQAデータセットでトレーニングするのに9.5秒かかります。
論文 参考訳(メタデータ) (2020-03-04T22:12:18Z) - DC-BERT: Decoupling Question and Document for Efficient Contextual
Encoding [90.85913515409275]
近年のオープンドメイン質問応答は,BERT などの事前学習言語モデルを用いて顕著な性能向上を実現している。
本稿では,2つのBERTモデルを持つコンテキストエンコーディングフレームワークであるDC-BERTと,すべての文書を事前エンコードし,それらのエンコーディングをキャッシュするオフラインBERTを提案する。
SQuADオープンとNatural Questionsオープンデータセットでは、DC-BERTは文書検索の10倍のスピードアップを実現し、QAパフォーマンスのほとんど(約98%)を維持している。
論文 参考訳(メタデータ) (2020-02-28T08:18:37Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。