論文の概要: MS2: Multi-Document Summarization of Medical Studies
- arxiv url: http://arxiv.org/abs/2104.06486v2
- Date: Thu, 15 Apr 2021 16:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 12:18:33.118705
- Title: MS2: Multi-Document Summarization of Medical Studies
- Title(参考訳): MS2: 医療研究のマルチドキュメント要約
- Authors: Jay DeYoung, Iz Beltagy, Madeleine van Zuylen, Bailey Kuehl, Lucy Lu
Wang
- Abstract要約: MS2(Multi-Document Summarization of Medical Studies)は、科学文献から得られた470k以上の文書と20kの要約からなるデータセットです。
このデータセットは、矛盾する証拠を複数の研究で評価し集約するシステムの開発を促進する。
早期成果を期待して,BARTに基づく要約システムを実験した。
- 参考スコア(独自算出の注目度): 11.38740406132287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To assess the effectiveness of any medical intervention, researchers must
conduct a time-intensive and highly manual literature review. NLP systems can
help to automate or assist in parts of this expensive process. In support of
this goal, we release MS^2 (Multi-Document Summarization of Medical Studies), a
dataset of over 470k documents and 20k summaries derived from the scientific
literature. This dataset facilitates the development of systems that can assess
and aggregate contradictory evidence across multiple studies, and is the first
large-scale, publicly available multi-document summarization dataset in the
biomedical domain. We experiment with a summarization system based on BART,
with promising early results. We formulate our summarization inputs and targets
in both free text and structured forms and modify a recently proposed metric to
assess the quality of our system's generated summaries. Data and models are
available at https://github.com/allenai/ms2
- Abstract(参考訳): 医学的介入の有効性を評価するために、研究者は時間的かつ高度に手作業による文献レビューを行う必要がある。
NLPシステムは、この高価なプロセスの一部を自動化する、または補助するのに役立ちます。
この目的をサポートし、470k以上の文書と20kの要約のデータセットであるms^2(multi-document summarization of medical studies)をリリースする。
このデータセットは、複数の研究にまたがる矛盾する証拠を評価・集約できるシステムの開発を促進し、バイオメディカル領域における最初の大規模で一般公開された多文書要約データセットである。
我々は,BARTに基づく要約システムで実験を行い,有望な早期結果を得た。
自由テキストと構造化形式の両方で要約入力と目標を定式化し、最近提案されたメトリクスを修正し、システムの生成した要約の品質を評価する。
データとモデルはhttps://github.com/allenai/ms2で入手できる。
関連論文リスト
- Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - NeuroSym-BioCAT: Leveraging Neuro-Symbolic Methods for Biomedical Scholarly Document Categorization and Question Answering [0.14999444543328289]
本稿では,最適化されたトピックモデリングフレームワークであるOVB-LDAとBI-POP CMA-ES最適化技術を統合し,学術文書の抽象分類を強化した新しい手法を提案する。
我々は、ドメイン固有データに基づいて微調整された蒸留MiniLMモデルを用いて、高精度な回答抽出を行う。
論文 参考訳(メタデータ) (2024-10-29T14:45:12Z) - AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels [19.90354530235266]
本稿では,自己学習仮説文書埋め込み (SL-HyDE) という新しい手法を導入し,この問題に対処する。
SL-HyDEは、与えられたクエリに基づいて仮説文書を生成するために、大きな言語モデル(LLM)をジェネレータとして利用する。
実世界の医療シナリオを基盤とした総合的な評価フレームワークとして,中国医療情報検索ベンチマーク(CMIRB)を提案する。
論文 参考訳(メタデータ) (2024-10-26T02:53:20Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Clinfo.ai: An Open-Source Retrieval-Augmented Large Language Model
System for Answering Medical Questions using Scientific Literature [44.715854387549605]
我々はClinfo.aiをリリースした。Clinfo.aiはオープンソースのWebアプリケーションで、動的に検索された科学的文献に基づいて臨床上の質問に答える。
我々は PubMedRS-200 上で Clinfo.ai および他の公開 OpenQA システムのベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2023-10-24T19:43:39Z) - A systematic evaluation of large language models for biomedical natural language processing: benchmarks, baselines, and recommendations [22.668383945059762]
そこで本研究では,12個のBioNLPデータセットにまたがる4つの代表言語モデル(LLM)を体系的に評価する。
評価は、ゼロショット、静的少数ショット、動的Kアネレスト、微調整の4つの設定で行われる。
これらのモデルと最先端(SOTA)アプローチを比較し、細い(ドメイン固有の)BERTモデルやBARTモデルと比較する。
論文 参考訳(メタデータ) (2023-05-10T13:40:06Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Multimodal Machine Learning in Precision Health [10.068890037410316]
本総説は, この分野を要約し, 今後の研究に欠かせない話題を特定するものである。
コンテンツ分析と文献検索を組み合わせて,2011年から2021年にかけてPubMed, Google Scholar, IEEEXploreの検索文字列とデータベースを構築した。
情報融合の最も一般的な形態は、初期の融合であり、特に、異種データ融合を行う予測性能の改善があった。
論文 参考訳(メタデータ) (2022-04-10T21:56:07Z) - Domain-Specific Pretraining for Vertical Search: Case Study on
Biomedical Literature [67.4680600632232]
自己教師型学習は、アノテーションのボトルネックを克服するための有望な方向として現れました。
本稿では,ドメイン固有の事前学習に基づく垂直探索手法を提案する。
我々のシステムはPubMed上で何千万もの記事にスケールでき、Microsoft Biomedical Searchとしてデプロイされている。
論文 参考訳(メタデータ) (2021-06-25T01:02:55Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。