論文の概要: Data-Driven Regular Expressions Evolution for Medical Text
Classification Using Genetic Programming
- arxiv url: http://arxiv.org/abs/2012.07515v1
- Date: Fri, 4 Dec 2020 03:44:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 10:08:03.669091
- Title: Data-Driven Regular Expressions Evolution for Medical Text
Classification Using Genetic Programming
- Title(参考訳): 遺伝的プログラミングを用いた医学テキスト分類のためのデータ駆動正規表現進化
- Authors: J Liu, R Bai, Z Lu, P Ge, D Liu, Uwe Aickelin
- Abstract要約: 本研究では,正規表現を進化させるために,遺伝的プログラミング(GP)アプローチを用いた新しい正規表現に基づくテキスト分類手法を提案する。
本手法は,オンライン医療提供者からのリアルタイム医療用テキスト調査を用いて評価し,有望なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In medical fields, text classification is one of the most important tasks
that can significantly reduce human workload through structured information
digitization and intelligent decision support. Despite the popularity of
learning-based text classification techniques, it is hard for human to
understand or manually fine-tune the classification results for better
precision and recall, due to the black box nature of learning. This study
proposes a novel regular expression-based text classification method making use
of genetic programming (GP) approaches to evolve regular expressions that can
classify a given medical text inquiry with satisfactory precision and recall
while allow human to read the classifier and fine-tune accordingly if
necessary. Given a seed population of regular expressions (can be randomly
initialized or manually constructed by experts), our method evolves a
population of regular expressions according to chosen fitness function, using a
novel regular expression syntax and a series of carefully chosen reproduction
operators. Our method is evaluated with real-life medical text inquiries from
an online healthcare provider and shows promising performance. More
importantly, our method generates classifiers that can be fully understood,
checked and updated by medical doctors, which are fundamentally crucial for
medical related practices.
- Abstract(参考訳): 医学分野において、テキスト分類は構造化情報デジタル化とインテリジェントな意思決定支援を通じて人的負担を大幅に削減できる最も重要なタスクの1つである。
学習に基づくテキスト分類技術が普及しているにもかかわらず、学習のブラックボックスの性質から、分類結果の理解や手作業による微調整が困難である。
そこで本研究では,遺伝子プログラミング(GP)アプローチを用いた新たな正規表現に基づくテキスト分類手法を提案する。
正規表現の種数(専門家がランダムに初期化または手動で構築できる)が与えられた場合、本手法は、新しい正規表現構文と慎重に選択された一連の再生演算子を用いて、選択された適合関数に従って正規表現の集団を進化させる。
本手法は,オンライン医療提供者からのリアルタイム医療用テキスト調査を用いて評価し,有望なパフォーマンスを示す。
より重要なことに、この手法は医療関係者によって完全に理解され、チェックされ、更新される分類器を生成します。
関連論文リスト
- SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics [2.3742710594744105]
SciPromptは,低リソーステキスト分類タスクに対して,科学的トピック関連用語を自動的に検索するフレームワークである。
本手法は, ほとんど, ゼロショット設定下での科学的テキスト分類作業において, 最先端, 即時的な微調整法より優れる。
論文 参考訳(メタデータ) (2024-10-02T18:45:04Z) - Self-Supervised Representation Learning for Online Handwriting Text
Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。
抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。
事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文 参考訳(メタデータ) (2023-10-10T14:07:49Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。
同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文 参考訳(メタデータ) (2022-05-15T12:58:35Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Word-level Text Highlighting of Medical Texts forTelehealth Services [0.0]
本研究の目的は,異なるテキストハイライト技術が関連する医療状況をどのように捉えることができるかを示すことである。
3つの異なる単語レベルのテキストハイライト手法を実装し評価する。
実験の結果、ニューラルネットワークアプローチは医療関連用語の強調に成功していることがわかった。
論文 参考訳(メタデータ) (2021-05-21T15:13:54Z) - Learning Regular Expressions for Interpretable Medical Text
Classification Using a Pool-based Simulated Annealing and Word-vector Models [0.6807963587057013]
医用分類のための高品質かつ解釈可能な正規表現からなるルールベースエンジンを提案する。
正規表現はコンストラクティブメソッドによって自動生成され、Pool-based Simulated Annealing (PSA)アプローチで最適化される。
論文 参考訳(メタデータ) (2020-11-16T07:20:02Z) - Revisiting Regex Generation for Modeling Industrial Applications by
Incorporating Byte Pair Encoder [14.42244606935982]
本研究は正規表現の自動生成に焦点を当て,この問題に対処する新しい遺伝的アルゴリズムを提案する。
まずバイトペアエンコーダ(BPE)を用いて頻繁な項目を抽出し,次に正規表現を構築する。
指数減衰を行うことで、トレーニング速度は指数崩壊を使わずに、手法の約100倍の速度となる。
論文 参考訳(メタデータ) (2020-05-06T02:09:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。