論文の概要: CELLS: A Parallel Corpus for Biomedical Lay Language Generation
- arxiv url: http://arxiv.org/abs/2211.03818v1
- Date: Mon, 7 Nov 2022 19:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 16:02:31.330457
- Title: CELLS: A Parallel Corpus for Biomedical Lay Language Generation
- Title(参考訳): 細胞 : 生物医学的レイ言語生成のための並列コーパス
- Authors: Yue Guo, Wei Qiu, Gondy Leroy, Sheng Wang, Trevor Cohen
- Abstract要約: 本稿では,最大 (63kペア) および最大 (12ジャーナル) 並列コーパスである CellS を紹介した。
抽象化とそれに対応するレイ言語要約は、ドメインの専門家によって書かれ、データセットの品質が保証されます。
我々はCellSから2つの特別なペアコーパスを抽出し、素言語生成における重要な課題に対処する。
- 参考スコア(独自算出の注目度): 14.947785605641048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent lay language generation systems have used Transformer models trained
on a parallel corpus to increase health information accessibility. However, the
applicability of these models is constrained by the limited size and topical
breadth of available corpora. We introduce CELLS, the largest (63k pairs) and
broadest-ranging (12 journals) parallel corpus for lay language generation. The
abstract and the corresponding lay language summary are written by domain
experts, assuring the quality of our dataset. Furthermore, qualitative
evaluation of expert-authored plain language summaries has revealed background
explanation as a key strategy to increase accessibility. Such explanation is
challenging for neural models to generate because it goes beyond simplification
by adding content absent from the source. We derive two specialized paired
corpora from CELLS to address key challenges in lay language generation:
generating background explanations and simplifying the original abstract. We
adopt retrieval-augmented models as an intuitive fit for the task of background
explanation generation, and show improvements in summary quality and simplicity
while maintaining factual correctness. Taken together, this work presents the
first comprehensive study of background explanation for lay language
generation, paving the path for disseminating scientific knowledge to a broader
audience. CELLS is publicly available at:
https://github.com/LinguisticAnomalies/pls_retrieval.
- Abstract(参考訳): 最近のlay言語生成システムは、並列コーパスでトレーニングされたトランスフォーマモデルを使用して、健康情報アクセシビリティを高めている。
しかし、これらのモデルの適用性は、利用可能なコーパスのサイズとトピックの幅に制限されている。
本稿では,最大 (63kペア) および最大 (12ジャーナル) 並列コーパスである CellS を紹介した。
抽象化とそれに対応するレイ言語要約はドメインの専門家によって書かれ、データセットの品質が保証されます。
さらに,専門家による素言語要約の質的評価により,アクセシビリティ向上の鍵となる背景説明が明らかになった。
このような説明は、ソースにないコンテンツを追加することで単純化を超越するため、神経モデルにとって難しい。
我々はCellSから2つの特別なペアコーパスを抽出し、素言語生成における重要な課題に対処する。
我々は,背景説明生成作業に直感的に適合する検索拡張モデルを採用し,事実的正確性を維持しつつ,要約品質と簡易性の向上を示す。
本研究は,科学的知識を幅広い読者に広める道筋をたどった,在来語生成の背景説明に関する最初の総合的研究である。
CellS は https://github.com/LinguisticAnomalies/pls_retrieval で公開されている。
関連論文リスト
- Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Improving Long Text Understanding with Knowledge Distilled from Summarization Model [17.39913210351487]
本稿では,要約モデルのgist検出能力を活用するためのemphGist Detectorを提案する。
Gist Detectorはまず、要約モデルから抽出したギスト検出知識を学習し、その後、ギスト認識表現を生成する。
提案手法は,長い文書分類,遠隔教師付きオープンドメイン質問応答,非並列テキストスタイル転送の3つのタスクで評価する。
論文 参考訳(メタデータ) (2024-05-08T10:49:39Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Large Language Models Meet Knowledge Graphs to Answer Factoid Questions [57.47634017738877]
本稿では,知識グラフから追加情報に富んだ事前学習されたテキスト・テキスト言語モデルを探索する手法を提案する。
抽出した部分グラフの線形化によりトランスフォーマーモデルで容易に情報を得る。
抽出された情報で回答候補を最終ランク付けすると、事前訓練されたテキスト-テキスト言語モデルのHits@1スコアが4-6%向上する。
論文 参考訳(メタデータ) (2023-10-03T15:57:00Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。
我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。
本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-04-19T13:40:47Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。