論文の概要: Multilingual Simplification of Medical Texts
- arxiv url: http://arxiv.org/abs/2305.12532v1
- Date: Sun, 21 May 2023 18:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 19:56:27.455964
- Title: Multilingual Simplification of Medical Texts
- Title(参考訳): 医学文献の多言語化
- Authors: Sebastian Joseph, Kathryn Kazanas, Keziah Reina, Vishnesh J.
Ramanathan, Wei Xu, Byron C. Wallace, and Junyi Jessy Li
- Abstract要約: 4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
- 参考スコア(独自算出の注目度): 39.340133967937675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated text simplification aims to produce simple versions of complex
texts. This task is especially useful in the medical domain, where the latest
medical findings are typically communicated via complex and technical articles.
This creates barriers for laypeople seeking access to up-to-date medical
findings, consequently impeding progress on health literacy. Most existing work
on medical text simplification has focused on monolingual settings, with the
result that such evidence would be available only in just one language (most
often, English). This work addresses this limitation via multilingual
simplification, i.e., directly simplifying complex texts into simplified texts
in multiple languages. We introduce MultiCochrane, the first sentence-aligned
multilingual text simplification dataset for the medical domain in four
languages: English, Spanish, French, and Farsi. We evaluate fine-tuned and
zero-shot models across these languages, with extensive human assessments and
analyses. Although models can now generate viable simplified texts, we identify
outstanding challenges that this dataset might be used to address.
- Abstract(参考訳): 自動テキスト単純化は、複雑なテキストの単純なバージョンを作成することを目的としている。
このタスクは特に医学領域で有用であり、最新の医学所見は一般的に複雑で技術的な記事を通じて伝達される。
このことは、最新の医学的発見へのアクセスを求める平民にとって障壁となり、その結果、健康リテラシーの進歩を妨げる。
医学的テキストの単純化に関する既存の研究は、モノリンガルな設定に重点を置いており、その結果、そのような証拠はたった一つの言語(多くは英語)でのみ利用可能となる。
この作業は、多言語による単純化、すなわち複雑なテキストを複数の言語で単純化されたテキストへ直接単純化することで、この制限に対処する。
英語、スペイン語、フランス語、ファルシ語という4つの言語で、医学領域で最初の文を並べた多言語テキスト簡易化データセットであるmulticochraneを導入する。
我々はこれらの言語にまたがる微調整およびゼロショットモデルを評価し,広範な評価と分析を行った。
モデルは現在、実行可能な簡易テキストを生成することができるが、このデータセットが対処できる未解決の課題を特定する。
関連論文リスト
- Medical mT5: An Open-Source Multilingual Text-to-Text LLM for The Medical Domain [19.58987478434808]
我々は、医療領域における最初のオープンソーステキストからテキストへの多言語モデルであるMedical mT5を提示する。
包括的な評価では、Medical mT5はエンコーダと、スペイン語、フランス語、イタリア語のベンチマークで同等の大きさのテキスト・テキスト・モデルの両方を上回っている。
論文 参考訳(メタデータ) (2024-04-11T10:01:32Z) - A Novel Dataset for Financial Education Text Simplification in Spanish [4.475176409401273]
スペイン語では、テキスト単純化システムを作成するために使用できるデータセットはほとんどない。
我々は、確立された単純化規則を用いて、5,314の複雑で単純化された文対からなるデータセットを作成しました。
論文 参考訳(メタデータ) (2023-12-15T15:47:08Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Cross-lingual Argument Mining in the Medical Domain [6.0158981171030685]
注釈付きデータがない医療用テキストでArgument Mining(AM)を実行する方法を示す。
我々の研究は、アノテーション(データ転送)を英語から特定のターゲット言語に自動翻訳・投影することは、注釈付きデータを生成する効果的な方法であることを示している。
また、スペイン語で自動生成されたデータを用いて、元の英語単言語設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - Lexical Simplification Benchmarks for English, Portuguese, and Spanish [23.90236014260585]
英語,スペイン語,(ブラジル語)ポルトガル語の語彙単純化のための新しいベンチマークデータセットを提案する。
これは3つの言語の語彙的単純化システムを直接比較した最初のデータセットである。
最先端の神経語彙単純化システムは,3言語すべてで最先端の非神経語彙単純化システムより優れていた。
論文 参考訳(メタデータ) (2022-09-12T15:06:26Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Paragraph-level Simplification of Medical Texts [35.650619024498425]
手動の簡略化は生物医学文献の急速に成長する体にスケールしません。
異なる臨床トピックに関連するすべての公開された証拠の技術的およびレイアウト要約からなる英語での平行テキストの新しいコーパスを紹介します。
本研究では,科学テキストを前提としたマスキング型言語モデルから,確率スコアに基づく新たな指標を提案する。
論文 参考訳(メタデータ) (2021-04-12T18:56:05Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。