論文の概要: TocBERT: Medical Document Structure Extraction Using Bidirectional Transformers
- arxiv url: http://arxiv.org/abs/2406.19526v1
- Date: Thu, 27 Jun 2024 20:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 18:31:50.633293
- Title: TocBERT: Medical Document Structure Extraction Using Bidirectional Transformers
- Title(参考訳): TocBERT:双方向変換器を用いた医用文書構造抽出
- Authors: Majd Saleh, Sarra Baghdadi, Stéphane Paquelet,
- Abstract要約: TocBERTは、意味表現からタイトルとサブタイトルを検出することを訓練された教師付きソリューションである。
この手法は、MIMIC-IIIデータセットの放電サマリーを分割するためにBio-ClinicalBERTモデルを微調整した医療用テキストセグメンテーションのユースケースに適用されている。
F1スコアは線形テキストセグメンテーション問題で84.6%、階層テキストセグメンテーション問題で72.8%に達した。
- 参考スコア(独自算出の注目度): 1.2343981093497332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text segmentation holds paramount importance in the field of Natural Language Processing (NLP). It plays an important role in several NLP downstream tasks like information retrieval and document summarization. In this work, we propose a new solution, namely TocBERT, for segmenting texts using bidirectional transformers. TocBERT represents a supervised solution trained on the detection of titles and sub-titles from their semantic representations. This task was formulated as a named entity recognition (NER) problem. The solution has been applied on a medical text segmentation use-case where the Bio-ClinicalBERT model is fine-tuned to segment discharge summaries of the MIMIC-III dataset. The performance of TocBERT has been evaluated on a human-labeled ground truth corpus of 250 notes. It achieved an F1-score of 84.6% when evaluated on a linear text segmentation problem and 72.8% on a hierarchical text segmentation problem. It outperformed a carefully designed rule-based solution, particularly in distinguishing titles from subtitles.
- Abstract(参考訳): テキストセグメンテーションは自然言語処理(NLP)の分野で最も重要な分野である。
情報検索や文書要約といったいくつかのNLP下流タスクにおいて重要な役割を果たす。
本研究では,双方向変換器を用いたテキストのセグメンテーションのための新しい解であるTocBERTを提案する。
TocBERTは、セマンティックな表現からタイトルとサブタイトルを検出することを訓練された教師付きソリューションである。
このタスクは、名前付きエンティティ認識(NER)問題として定式化された。
この手法は、MIMIC-IIIデータセットの放電サマリーを分割するためにBio-ClinicalBERTモデルを微調整した医療用テキストセグメンテーションのユースケースに適用されている。
TocBERTの性能は250音の人間ラベル付き真実コーパスで評価されている。
F1スコアは線形テキストセグメンテーション問題で84.6%、階層テキストセグメンテーション問題で72.8%に達した。
これは、特に字幕と字幕の区別において、慎重に設計されたルールベースのソリューションよりも優れていた。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Lexically Grounded Subword Segmentation [0.0]
トークン化とサブワードセグメンテーションの3つの革新を提示する。
まず,Morfessorを用いた教師なし形態素解析を事前学習に用いることを提案する。
第二に、単語埋め込み空間に接地したサブワード埋め込みを得る方法を提案する。
第3に,単語ビッグラムモデルに基づく効率的なセグメンテーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T13:48:19Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution [2.3429306644730854]
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
論文 参考訳(メタデータ) (2023-06-26T11:35:47Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - Influence Functions for Sequence Tagging Models [49.81774968547377]
影響関数を拡張して、予測を学習ポイントまで追跡し、それらに通知します。
本手法を用いて,系統的アノテーションの誤りを同定し,セグメント効果の実用性を示す。
論文 参考訳(メタデータ) (2022-10-25T17:13:11Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z) - Improving Bi-LSTM Performance for Indonesian Sentiment Analysis Using
Paragraph Vector [0.0]
Bidirectional Long Short-Term Memory Network (Bi-LSTM) は感情分類タスクにおいて有望な性能を示した。
本稿では,Bi-LSTMの付加的な入力特徴として,段落ベクトルと呼ばれる既存の文書表現手法を提案する。
論文 参考訳(メタデータ) (2020-09-12T03:43:30Z) - Disentangling Human Error from the Ground Truth in Segmentation of
Medical Images [12.009437407687987]
本稿では,純粋にノイズの多い観測のみから,個々のアノテータの信頼性,真のセグメンテーションラベル分布まで,共同学習手法を提案する。
本手法は,必要ならばシミュレートした3つの医用画像セグメンテーションデータセットと実際の多彩なアノテーションに対して有効であることを示す。
論文 参考訳(メタデータ) (2020-07-31T11:03:12Z) - Incorporating Uncertain Segmentation Information into Chinese NER for
Social Media Text [18.455836845989523]
セグメンテーションエラーの伝播は、中国のエンティティ認識システムにとっての課題である。
中国のソーシャルメディアテキストからエンティティを識別するモデル(UIcwsNN)を提案する。
論文 参考訳(メタデータ) (2020-04-14T09:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。