論文の概要: Making Science Simple: Corpora for the Lay Summarisation of Scientific
Literature
- arxiv url: http://arxiv.org/abs/2210.09932v1
- Date: Tue, 18 Oct 2022 15:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:49:52.135432
- Title: Making Science Simple: Corpora for the Lay Summarisation of Scientific
Literature
- Title(参考訳): 科学をシンプルにする:科学論文の要約のためのコーパス
- Authors: Tomas Goldsack, Zhihao Zhang, Chenghua Lin, Carolina Scarton
- Abstract要約: PLOS(大規模)とeLife(medium-scale)の2つの新しい階層化データセットを提案する。
私たちは、データセット間の可読性と抽象性の異なるレベルを強調しながら、レイサマリーの徹底的な特徴付けを提供します。
- 参考スコア(独自算出の注目度): 11.538754804688107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lay summarisation aims to jointly summarise and simplify a given text, thus
making its content more comprehensible to non-experts. Automatic approaches for
lay summarisation can provide significant value in broadening access to
scientific literature, enabling a greater degree of both interdisciplinary
knowledge sharing and public understanding when it comes to research findings.
However, current corpora for this task are limited in their size and scope,
hindering the development of broadly applicable data-driven approaches. Aiming
to rectify these issues, we present two novel lay summarisation datasets, PLOS
(large-scale) and eLife (medium-scale), each of which contains biomedical
journal articles alongside expert-written lay summaries. We provide a thorough
characterisation of our lay summaries, highlighting differing levels of
readability and abstractiveness between datasets that can be leveraged to
support the needs of different applications. Finally, we benchmark our datasets
using mainstream summarisation approaches and perform a manual evaluation with
domain experts, demonstrating their utility and casting light on the key
challenges of this task.
- Abstract(参考訳): layの要約は、与えられたテキストをまとめて要約し、単純化することを目的としている。
layの要約のための自動的アプローチは、科学文献へのアクセスを広げる上で重要な価値をもたらし、研究結果に関して学際的な知識共有と公衆の理解の両立を可能にする。
しかし、現在のこのタスクのコーパスはサイズとスコープが限られており、広く適用可能なデータ駆動アプローチの開発を妨げている。
これらの問題を是正するために,本論文はPLOS(大規模)とeLife(大規模)の2つの新しいレイ・サマリゼーション・データセットを提示し,それぞれが専門家が作成したレイ・サマリとともにバイオメディカル・ジャーナル記事を含む。
私たちは、さまざまなアプリケーションのニーズをサポートするために活用できるデータセット間の可読性と抽象性の異なるレベルを強調し、レイサマリーの徹底的な特徴付けを提供します。
最後に、主流の要約アプローチを使用してデータセットをベンチマークし、ドメインエキスパートと手動で評価を行い、その有用性を実証し、このタスクの重要な課題に光を当てる。
関連論文リスト
- Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Label-Free Topic-Focused Summarization Using Query Augmentation [2.127049691404299]
本研究では、広範囲なラベル付きデータセットを必要としないトピック中心の要約のための新しい手法であるAQSを紹介した。
提案手法は,データ豊富な環境において,コスト効率の高いソリューションとしての可能性を示すとともに,関連性のある正確な要約を生成する能力を示す。
このイノベーションは、トピック中心の要約技術分野における幅広い応用とアクセシビリティの道を開いた。
論文 参考訳(メタデータ) (2024-04-25T08:39:10Z) - Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey [17.19337964440007]
現在、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。
この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。
既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。
論文 参考訳(メタデータ) (2024-02-27T23:59:01Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文 参考訳(メタデータ) (2022-10-12T21:46:38Z) - An Empirical Survey on Long Document Summarization: Datasets, Models and
Metrics [33.655334920298856]
本稿では,長期文書要約研究の概要について概説する。
我々は、現在の研究の進展に対する視点を広げるために、実証分析を行う。
論文 参考訳(メタデータ) (2022-07-03T02:57:22Z) - Automatic Text Summarization Methods: A Comprehensive Review [1.6114012813668934]
本研究は,要約手法,使用する手法,標準データセット,評価指標,今後の研究範囲などのテキスト要約概念を詳細に分析する。
論文 参考訳(メタデータ) (2022-03-03T10:45:00Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Towards Personalized and Human-in-the-Loop Document Summarization [0.0]
この論文は、新しい要約技術を用いて情報の過負荷を軽減するための3つの主要な課題に焦点を当てている。
i) 文書要約における機能工学、(ii) 従来の静的および非フレキシブルな要約、(iii) 従来の総合的な要約アプローチ、(iv) 参照要約の必要性をカバーしている。
論文 参考訳(メタデータ) (2021-08-21T05:34:46Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。