論文の概要: Med-EASi: Finely Annotated Dataset and Models for Controllable
Simplification of Medical Texts
- arxiv url: http://arxiv.org/abs/2302.09155v1
- Date: Fri, 17 Feb 2023 21:50:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 20:18:00.566220
- Title: Med-EASi: Finely Annotated Dataset and Models for Controllable
Simplification of Medical Texts
- Title(参考訳): Med-EASi:医療用テキストの簡易化のための細かな注釈付きデータセットとモデル
- Authors: Chandrayee Basu, Rosni Vasu, Michihiro Yasunaga, Qian Yang
- Abstract要約: 医療用テキストの簡易化は、提供者にとって患者に優しいコミュニケーションを支援し、医療用テキストをより使いやすくする。
我々は$textbfMed-EASi$$$underlinetextbfMed$ical dataset for $underlinetextbfE$laborative and $underlinetextbfA$bstractive $underlinetextbfSi$mplificationを提示する。
以上の結果から, 未注釈のベースラインに比べて, 微粒なアノテーションが学習を改善することが示唆された。
- 参考スコア(独自算出の注目度): 32.57058284812338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic medical text simplification can assist providers with
patient-friendly communication and make medical texts more accessible, thereby
improving health literacy. But curating a quality corpus for this task requires
the supervision of medical experts. In this work, we present
$\textbf{Med-EASi}$ ($\underline{\textbf{Med}}$ical dataset for
$\underline{\textbf{E}}$laborative and $\underline{\textbf{A}}$bstractive
$\underline{\textbf{Si}}$mplification), a uniquely crowdsourced and finely
annotated dataset for supervised simplification of short medical texts. Its
$\textit{expert-layman-AI collaborative}$ annotations facilitate
$\textit{controllability}$ over text simplification by marking four kinds of
textual transformations: elaboration, replacement, deletion, and insertion. To
learn medical text simplification, we fine-tune T5-large with four different
styles of input-output combinations, leading to two control-free and two
controllable versions of the model. We add two types of
$\textit{controllability}$ into text simplification, by using a multi-angle
training approach: $\textit{position-aware}$, which uses in-place annotated
inputs and outputs, and $\textit{position-agnostic}$, where the model only
knows the contents to be edited, but not their positions. Our results show that
our fine-grained annotations improve learning compared to the unannotated
baseline. Furthermore, $\textit{position-aware}$ control generates better
simplification than the $\textit{position-agnostic}$ one. The data and code are
available at https://github.com/Chandrayee/CTRL-SIMP.
- Abstract(参考訳): 自動医療テキスト簡略化は、患者フレンドリーなコミュニケーションの提供者を支援し、医療テキストをよりアクセスしやすくし、健康リテラシーを向上させる。
しかし、このタスクのための品質コーパスのキュレーションには、医療専門家の監督が必要です。
本稿では、短い医療用テキストの管理を単純化するための独自のクラウドソースと注釈付きデータセットである$\underline{\textbf{Med-EASi}$$$\underline{\textbf{Med}}$ical dataset for $\underline{\textbf{E}}$laborative and $\underline{\textbf{A}}$bstractive $\underline{\textbf{Si}}$mplificationを提示する。
その$\textit{expert-layman-AI collaborative}$アノテーションは、編集、置換、削除、挿入の4種類のテキスト変換をマークすることで、$\textit{controllability}$のテキスト単純化を促進する。
医療用テキストの簡易化を学習するために,入力と出力の組み合わせを4種類用意したT5-largeを微調整し,2種類のコントロールフリー版と2種類の制御可能なモデルを開発した。
テキストの単純化には、マルチアングルのトレーニングアプローチを使って、2種類の$\textit{controllability}$を追加します。 $\textit{position-aware}$、インプレースアノテートされた入力と出力を使用し、$\textit{position-agnostic}$です。
その結果,無注のベースラインと比較して,きめ細かなアノテーションは学習を改善することがわかった。
さらに、$\textit{position-aware}$コントロールは$\textit{position-agnostic}$ oneよりも簡単になる。
データとコードはhttps://github.com/Chandrayee/CTRL-SIMPで公開されている。
関連論文リスト
- MedUnA: Language guided Unsupervised Adaptation of Vision-Language Models for Medical Image Classification [14.725941791069852]
本稿では,2段階の学習:適応事前学習と教師なし学習を構成するアンダーラインMedical UnderlineUnsupervised UnderlineAdaptation (textttMedUnA)を提案する。
胸部X線像,眼底画像,皮膚病変画像の3種類のデータモダリティを用いたtextttMedUnA の評価を行った。
論文 参考訳(メタデータ) (2024-09-03T09:25:51Z) - Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG [57.14250086701313]
本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。
我々は,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。
論文 参考訳(メタデータ) (2024-06-18T21:31:19Z) - Text2MDT: Extracting Medical Decision Trees from Medical Texts [33.58610255918941]
医療用テキストから医療用決定木(MDT)を自動的に抽出する新しいタスクであるText2MDTを提案する。
我々は、MDTの形式を標準化し、医学専門家の参加を得て、中国語で注釈付きテキスト・トゥ・MDTデータセットを作成する。
論文 参考訳(メタデータ) (2024-01-04T02:33:38Z) - Text Embeddings Reveal (Almost) As Much As Text [86.5822042193058]
テキストの埋め込みに代表される全文を再構築し,テキストの埋め込みに関する問題点を考察する。
埋め込みに条件付けされたna"iveモデルでは性能が良くないが、反復的にテキストを修正・再埋め込みするマルチステップメソッドでは、正確に32text-token$のテキスト入力を92%の費用で回収できることがわかった。
論文 参考訳(メタデータ) (2023-10-10T17:39:03Z) - TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles [14.205559299967423]
近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。
悪意のある意図を持つユーザは、これらのオープンソース LLM を使用して、有害なテキストや、大規模な偽情報を生成することができる。
この問題を軽減するために、与えられたテキストがディープフェイクテキストであるか否かを判定する計算方法を提案する。
そこで我々はTopFormerを提案し、より言語的なパターンをディープフェイクテキストに取り込み、既存のAAソリューションを改善する。
論文 参考訳(メタデータ) (2023-09-22T15:32:49Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - AutoMeTS: The Autocomplete for Medical Text Simplification [9.18959130745234]
簡単な英語のウィキペディア文と整列した英語のウィキペディアからなる,新たな並列医療データセットを提案する。
より優れた結果を得るために, 単純化すべき文の追加コンテキストを組み込むことが可能であることを示す。
また、4つのPNLMを組み合わせるアンサンブルモデルを導入し、2.1%の精度で最高の個人モデルより優れています。
論文 参考訳(メタデータ) (2020-10-20T19:20:29Z) - All you need is a second look: Towards Tighter Arbitrary shape text
detection [80.85188469964346]
長い曲線のテキストインスタンスは、CNNの受信フィールドサイズが制限されているため、断片化されがちである。
矩形や四角形のバウンディングボックスを用いた単純な表現は、より難しい任意の形のテキストを扱う際に不足する。
textitNASKは、予測された幾何学的属性を使用して、より厳密な表現でテキストインスタンスを再構築する。
論文 参考訳(メタデータ) (2020-04-26T17:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。