論文の概要: A Dataset for Plain Language Adaptation of Biomedical Abstracts
- arxiv url: http://arxiv.org/abs/2210.12242v1
- Date: Fri, 21 Oct 2022 20:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:28:21.530573
- Title: A Dataset for Plain Language Adaptation of Biomedical Abstracts
- Title(参考訳): バイオメディカル抽象化の平易な言語適応のためのデータセット
- Authors: Kush Attal, Brian Ondov and Dina Demner-Fushman
- Abstract要約: このデータセットは、文書と文の整合性を持った最初の手動適応データセットである。
データセットを記述するとともに、最新のDeep Learningアプローチでデータセットの自動適応をベンチマークします。
- 参考スコア(独自算出の注目度): 15.192291280727073
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Though exponentially growing health-related literature has been made
available to a broad audience online, the language of scientific articles can
be difficult for the general public to understand. Therefore, adapting this
expert-level language into plain language versions is necessary for the public
to reliably comprehend the vast health-related literature. Deep Learning
algorithms for automatic adaptation are a possible solution; however, gold
standard datasets are needed for proper evaluation. Proposed datasets thus far
consist of either pairs of comparable professional- and general public-facing
documents or pairs of semantically similar sentences mined from such documents.
This leads to a trade-off between imperfect alignments and small test sets. To
address this issue, we created the Plain Language Adaptation of Biomedical
Abstracts dataset. This dataset is the first manually adapted dataset that is
both document- and sentence-aligned. The dataset contains 750 adapted
abstracts, totaling 7643 sentence pairs. Along with describing the dataset, we
benchmark automatic adaptation on the dataset with state-of-the-art Deep
Learning approaches, setting baselines for future research.
- Abstract(参考訳): 急速に成長する健康関連文献は、インターネット上で広く利用できるようになったが、科学論文の言語は一般大衆が理解することが困難である。
したがって、この専門家レベルの言語を平易な言語に適応させるためには、公衆が膨大な健康関連文献を確実に理解する必要がある。
自動適応のためのディープラーニングアルゴリズムが考えられるが、適切な評価には金の標準データセットが必要である。
これまで提案されたデータセットは、同等の専門文書と一般の公用文書のペアか、そのような文書から抽出された意味的に類似した文のペアで構成されている。
これは不完全なアライメントと小さなテストセットのトレードオフにつながる。
この問題に対処するため、私たちはPlain Language Adaptation of Biomedical Abstractsデータセットを作成しました。
このデータセットは、文書と文の一致した最初の手動適応データセットである。
データセットには750の適応した要約が含まれており、合計7643の文ペアがある。
データセットを記述するとともに、最新のDeep Learningアプローチでデータセットの自動適応をベンチマークし、将来の研究のベースラインを設定します。
関連論文リスト
- OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。
第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。
得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文 参考訳(メタデータ) (2024-04-08T14:08:56Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - BigBIO: A Framework for Data-Centric Biomedical Natural Language
Processing [13.30221348538759]
バイオメディカルNLPデータセット126以上のコミュニティライブラリであるBigBIOを紹介する。
BigBIOは、データセットとそのメタデータへのプログラムアクセスを通じて、再現可能なメタデータキュレーションを容易にする。
本稿では,タスクスキーマ,データ監査,コントリビューションガイドライン,および2つの実証的ユースケースの概要について論じる。
論文 参考訳(メタデータ) (2022-06-30T07:15:45Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - SynthBio: A Case Study in Human-AI Collaborative Curation of Text
Datasets [26.75449546181059]
効率的なデータセットキュレーションのための新しい手法を提案する。
私たちは大きな言語モデルを使って、人間のレイパーにシード世代を提供しています。
われわれの架空の伝記のデータセットはWikiBioより騒がしい。
論文 参考訳(メタデータ) (2021-11-11T21:21:48Z) - PharmKE: Knowledge Extraction Platform for Pharmaceutical Texts using
Transfer Learning [0.0]
PharmKEは、医薬品のセマンティック分析を徹底するために、いくつかの段階を通じてディープラーニングを適用するテキスト分析プラットフォームです。
この方法論は、正確なラベル付きトレーニングとテストデータセットの作成に使用され、カスタムエンティティラベリングタスクのモデルトレーニングに使用されます。
得られた結果は、同じデータセットで訓練された微調整BERTおよびBioBERTモデルと比較されます。
論文 参考訳(メタデータ) (2021-02-25T19:36:35Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。