論文の概要: Infusing clinical knowledge into tokenisers for language models
- arxiv url: http://arxiv.org/abs/2406.14312v1
- Date: Thu, 20 Jun 2024 13:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 13:32:31.215658
- Title: Infusing clinical knowledge into tokenisers for language models
- Title(参考訳): 言語モデルのためのトークンサーへの臨床知識の注入
- Authors: Abul Hasan, Jinge Wu, Quang Ngoc Nguyen, Salomé Andres, Imane Guellil, Huayu Zhang, Arlene Casey, Beatrice Alex, Bruce Guthrie, Honghan Wu,
- Abstract要約: 本研究はクリニカルテキスト処理のための新しい知識強化トークン化機構であるK-Tokeniserを紹介する。
初期化段階では、K-Tokeniserはドメイン概念の意味型に基づいてトークンのグローバル表現をポップアップさせる。
新しいトークンを用いた事前学習を避けるため,新しいトークンの表現を生成するために埋め込み初期化手法を提案する。
- 参考スコア(独自算出の注目度): 1.9921590146992474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study introduces a novel knowledge enhanced tokenisation mechanism, K-Tokeniser, for clinical text processing. Technically, at initialisation stage, K-Tokeniser populates global representations of tokens based on semantic types of domain concepts (such as drugs or diseases) from either a domain ontology like Unified Medical Language System or the training data of the task related corpus. At training or inference stage, sentence level localised context will be utilised for choosing the optimal global token representation to realise the semantic-based tokenisation. To avoid pretraining using the new tokeniser, an embedding initialisation approach is proposed to generate representations for new tokens. Using three transformer-based language models, a comprehensive set of experiments are conducted on four real-world datasets for evaluating K-Tokeniser in a wide range of clinical text analytics tasks including clinical concept and relation extraction, automated clinical coding, clinical phenotype identification, and clinical research article classification. Overall, our models demonstrate consistent improvements over their counterparts in all tasks. In particular, substantial improvements are observed in the automated clinical coding task with 13\% increase on Micro $F_1$ score. Furthermore, K-Tokeniser also shows significant capacities in facilitating quicker converge of language models. Specifically, using K-Tokeniser, the language models would only require 50\% of the training data to achieve the best performance of the baseline tokeniser using all training data in the concept extraction task and less than 20\% of the data for the automated coding task. It is worth mentioning that all these improvements require no pre-training process, making the approach generalisable.
- Abstract(参考訳): 本研究はクリニカルテキスト処理のための新しい知識強化トークン化機構であるK-Tokeniserを紹介する。
技術的には、K-Tokeniserは初期化段階で、統一医療言語システムのようなドメインオントロジーやタスク関連コーパスのトレーニングデータから、ドメイン概念のセマンティックタイプ(薬物や病気など)に基づいてトークンのグローバルな表現を発生させる。
トレーニングや推論の段階では、文レベルのローカライズされたコンテキストを使用して、セマンティックベースのトークン化を実現するために最適なグローバルトークン表現を選択する。
新しいトークンを用いた事前学習を避けるため,新しいトークンの表現を生成するために埋め込み初期化手法を提案する。
3つのトランスフォーマーベース言語モデルを用いて,K-Tokeniserの臨床的概念と関係抽出,自動臨床コーディング,臨床表現型識別,臨床研究論文分類を含む幅広い臨床テキスト分析タスクにおいて,K-Tokeniserを評価するための4つの実世界のデータセットを用いて総合的な実験を行った。
全体として、私たちのモデルは、すべてのタスクにおいて、そのモデルよりも一貫した改善を示します。
特に,Micro $F_1$スコアを13%増加させる自動臨床コーディングタスクにおいて,大幅な改善が見られた。
さらに、K-Tokeniserは、言語モデルのより迅速な収束を促進する上で、大きな能力を示している。
具体的には、K-Tokeniserを使用する言語モデルは、概念抽出タスクにおけるすべてのトレーニングデータを使用してベースライントークンサの最高のパフォーマンスを達成するために、トレーニングデータの50 %しか必要とせず、自動コーディングタスクでは20 %未満である。
これらの改善がすべて事前トレーニングのプロセスを必要としないため、アプローチが一般化可能である点に注意が必要だ。
関連論文リスト
- SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - Towards Unifying Anatomy Segmentation: Automated Generation of a
Full-body CT Dataset via Knowledge Aggregation and Anatomical Guidelines [113.08940153125616]
我々は533巻のボクセルレベルのラベルを142ドル(約1万2000円)で、全身CTスキャンのデータセットを作成し、解剖学的包括的カバレッジを提供する。
提案手法はラベル集約段階において手作業によるアノテーションに依存しない。
我々はCTデータに142ドルの解剖学的構造を予測できる統一解剖学的セグメンテーションモデルをリリースする。
論文 参考訳(メタデータ) (2023-07-25T09:48:13Z) - Modelling Temporal Document Sequences for Clinical ICD Coding [9.906895077843663]
本稿では,ICD符号化のための病院留置所における臨床ノートの全列にテキストを用いた階層型トランスフォーマーアーキテクチャを提案する。
すべての臨床ノートを使用すると、データ量が大幅に増加するが、超収束はトレーニングコストの削減に利用することができる。
本モデルでは, 放電サマリーのみを入力として使用する場合の先行技術を超え, 全臨床ノートを入力として使用する場合のさらなる性能向上を実現している。
論文 参考訳(メタデータ) (2023-02-24T14:41:48Z) - Cross-Lingual Knowledge Transfer for Clinical Phenotyping [55.92262310716537]
本稿では,英語を使わないクリニックに対して,このタスクを実行するための言語間知識伝達戦略について検討する。
ギリシャ語とスペイン語のクリニックに対して,異なる臨床領域のクリニカルノートを活用して,これらの戦略を評価する。
以上の結果から,多言語データを用いることで,臨床表現型モデルが改善され,データの疎度を補うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-03T08:33:21Z) - Classifying Unstructured Clinical Notes via Automatic Weak Supervision [17.45660355026785]
クラスラベル記述のみから学習する、一般的な弱教師付きテキスト分類フレームワークを導入する。
我々は、事前訓練された言語モデルとデータプログラミングフレームワークに格納された言語ドメインの知識を活用して、テキストにコードラベルを割り当てる。
論文 参考訳(メタデータ) (2022-06-24T05:55:49Z) - Large Language Models are Zero-Shot Clinical Information Extractors [15.907327589436965]
GPT-3のような大規模言語モデルは,臨床テキストからゼロショット情報抽出において良好に機能することを示す。
これらのモデルを, (i) 概念の曖昧さ, (ii) 証拠抽出, (iii) コア参照解決, (iv) 概念抽出の多様なタスクのツールとして用いる方法を示す。
優れたパフォーマンスの鍵は、言語モデルからタスクのラベル空間にマッピングする単純なタスク固有のプログラムを使用することである。
論文 参考訳(メタデータ) (2022-05-25T11:49:58Z) - HealthPrompt: A Zero-shot Learning Paradigm for Clinical Natural
Language Processing [3.762895631262445]
われわれはHealthPromptという新しいプロンプトベースのNLPフレームワークを開発した。
本研究は,6種類のPLMを用いたHealthPromptの詳細な分析を行った。
本実験は,臨床テキストのコンテキストを効果的に把握し,トレーニングデータなしで極めて良好に動作できることを証明した。
論文 参考訳(メタデータ) (2022-03-09T21:44:28Z) - Detecting of a Patient's Condition From Clinical Narratives Using
Natural Language Representation [0.3149883354098941]
本稿では,臨床自然言語表現学習と教師付き分類フレームワークを提案する。
この新しいフレームワークは、文脈的臨床物語入力から分布構文と潜在意味論(表現学習)を共同で発見する。
提案手法では, 精度, 再現性, 精度をそれぞれ89 %, 88 %, 89 %とした総合分類性能が得られる。
論文 参考訳(メタデータ) (2021-04-08T17:16:04Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。