論文の概要: Summarizing, Simplifying, and Synthesizing Medical Evidence Using GPT-3
(with Varying Success)
- arxiv url: http://arxiv.org/abs/2305.06299v1
- Date: Wed, 10 May 2023 16:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 12:15:52.720298
- Title: Summarizing, Simplifying, and Synthesizing Medical Evidence Using GPT-3
(with Varying Success)
- Title(参考訳): GPT-3による医療証拠の要約, 簡易化, 合成
- Authors: Chantal Shaib, Millicent L. Li, Sebastian Joseph, Iain J. Marshall,
Junyi Jessy Li, Byron C. Wallace
- Abstract要約: GPT-3は、いくつかの設定とゼロショット設定で、一般的なドメインニュース記事の高品質な要約を生成することができる。
我々は,GPT-3が生み出すバイオメディカル記事の要約を評価するために,ドメインエキスパート(個別の医療研修)を募集した。
- 参考スコア(独自算出の注目度): 36.646495151276326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models, particularly GPT-3, are able to produce high quality
summaries of general domain news articles in few- and zero-shot settings.
However, it is unclear if such models are similarly capable in more
specialized, high-stakes domains such as biomedicine. In this paper, we enlist
domain experts (individuals with medical training) to evaluate summaries of
biomedical articles generated by GPT-3, given zero supervision. We consider
both single- and multi-document settings. In the former, GPT-3 is tasked with
generating regular and plain-language summaries of articles describing
randomized controlled trials; in the latter, we assess the degree to which
GPT-3 is able to \emph{synthesize} evidence reported across a collection of
articles. We design an annotation scheme for evaluating model outputs, with an
emphasis on assessing the factual accuracy of generated summaries. We find that
while GPT-3 is able to summarize and simplify single biomedical articles
faithfully, it struggles to provide accurate aggregations of findings over
multiple documents. We release all data and annotations used in this work.
- Abstract(参考訳): 大規模言語モデル、特にGPT-3は、いくつかの設定とゼロショット設定で一般的なドメインニュース記事の高品質な要約を生成することができる。
しかし、このようなモデルがバイオメディシンのようなより専門的で高度な領域でも同様に機能するかどうかは不明である。
本稿では,GPT-3が生み出す生物医学的項目の要約を評価するために,ドメインエキスパート(医療実習の個人)を募集する。
シングルドキュメントとマルチドキュメントの両方の設定を検討します。
前者では, GPT-3がランダム化比較試験を記述した記事の規則的, 平易な要約を生成することを任務とし, 後者では, GPT-3が記事の集合中に報告される証拠を「emph{synthesize>」できる程度の評価を行う。
モデル出力を評価するためのアノテーションスキームを設計し,生成した要約の事実的正確性を評価することに着目した。
GPT-3は1つの生物医学的論文を忠実に要約し、単純化することができるが、複数の文書の正確な集計に苦慮している。
この作業で使用されるデータとアノテーションをすべてリリースします。
関連論文リスト
- WisPerMed at BioLaySumm: Adapting Autoregressive Large Language Models for Lay Summarization of Scientific Articles [0.41716369948557463]
本稿では,BioLaySumm2024共有タスクにおけるWisPerMedチームの作業について述べる。
大規模言語モデル(LLM)、特にBioMistralとLlama3は微調整され、レイサマリーを作成するために使用された。
実験によると、微調整は一般的に、最も評価されたメトリクスで最高のパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-05-20T10:54:47Z) - Optimal path for Biomedical Text Summarization Using Pointer GPT [21.919661430250798]
GPTモデルは、事実の誤りを発生させ、文脈を欠き、言葉を単純化する傾向にある。
これらの制約に対処するため、GPTモデルの注意機構をポインタネットワークに置き換えた。
ROUGEスコアを用いてポインター-GPTモデルの有効性を評価した。
論文 参考訳(メタデータ) (2024-03-22T02:13:23Z) - Evaluating the Factuality of Zero-shot Summarizers Across Varied Domains [60.5207173547769]
バイオメディカル・アーティクルや法定請求書を含む専門分野におけるゼロショット生成サマリーを評価した。
ドメインの専門家からアノテーションを取得し、要約の不整合を識別し、これらのエラーを体系的に分類する。
収集したすべてのアノテーションを公開し、ニュース記事を超えて、事実的に正確な要約を計測および実現するためのさらなる研究を促進する。
論文 参考訳(メタデータ) (2024-02-05T20:51:11Z) - Evaluation of ChatGPT on Biomedical Tasks: A Zero-Shot Comparison with
Fine-Tuned Generative Transformers [2.5027382653219155]
ChatGPTはOpenAIが開発した大規模言語モデルである。
本稿では,各種ベンチマークバイオメディカルタスクにおけるChatGPTの性能評価を目的とした。
論文 参考訳(メタデータ) (2023-06-07T15:11:26Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Thinking about GPT-3 In-Context Learning for Biomedical IE? Think Again [24.150464908060112]
本研究は,GPT-3のテキスト内学習を小型(BERTサイズ)PLMと比較した最初の体系的,包括的研究である。
以上の結果から, GPT-3 は, 小型 PLM の微調整に比べてまだ性能が劣っていることが示唆された。
論文 参考訳(メタデータ) (2022-03-16T05:56:08Z) - Fine-tuning GPT-3 for Russian Text Summarization [77.34726150561087]
本稿では,テキストを要約するruGPT3(ruGPT3)機能について紹介し,それに対応する人文要約を用いてロシア語ニュースのコーパスを微調整する。
得られたテキストを一連のメトリクスで評価し、アーキテクチャや損失関数に付加的な変更を加えることなく、我々のソリューションが最先端のモデルの性能を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-08-07T19:01:40Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。