Fugu-MT 論文翻訳(概要): MS2: Multi-Document Summarization of Medical Studies

論文の概要: MS2: Multi-Document Summarization of Medical Studies

arxiv url: http://arxiv.org/abs/2104.06486v1
Date: Tue, 13 Apr 2021 19:59:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-16 02:31:01.192059
Title: MS2: Multi-Document Summarization of Medical Studies
Title（参考訳）: MS2: 医療研究のマルチドキュメント要約
Authors: Jay DeYoung, Iz Beltagy, Madeleine van Zuylen, Bailey Keuhl, Lucy Lu Wang
Abstract要約: MS2(Multi-Document Summarization of Medical Studies)は、科学文献から得られた470k以上の文書と20kの要約からなるデータセットです。このデータセットは、矛盾する証拠を複数の研究で評価し集約するシステムの開発を促進する。早期成果を期待して,BARTに基づく要約システムを実験した。
参考スコア（独自算出の注目度）: 11.38740406132287
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To assess the effectiveness of any medical intervention, researchers must conduct a time-intensive and highly manual literature review. NLP systems can help to automate or assist in parts of this expensive process. In support of this goal, we release MS^2 (Multi-Document Summarization of Medical Studies), a dataset of over 470k documents and 20k summaries derived from the scientific literature. This dataset facilitates the development of systems that can assess and aggregate contradictory evidence across multiple studies, and is the first large-scale, publicly available multi-document summarization dataset in the biomedical domain. We experiment with a summarization system based on BART, with promising early results. We formulate our summarization inputs and targets in both free text and structured forms and modify a recently proposed metric to assess the quality of our system's generated summaries. Data and models are available at https://github.com/allenai/ms2
Abstract（参考訳）: 医学的介入の有効性を評価するために、研究者は時間的かつ高度に手作業による文献レビューを行う必要がある。 NLPシステムは、この高価なプロセスの一部を自動化する、または補助するのに役立ちます。この目的をサポートし、470k以上の文書と20kの要約のデータセットであるms^2(multi-document summarization of medical studies)をリリースする。このデータセットは、複数の研究にまたがる矛盾する証拠を評価・集約できるシステムの開発を促進し、バイオメディカル領域における最初の大規模で一般公開された多文書要約データセットである。我々は,BARTに基づく要約システムで実験を行い,有望な早期結果を得た。自由テキストと構造化形式の両方で要約入力と目標を定式化し、最近提案されたメトリクスを修正し、システムの生成した要約の品質を評価する。データとモデルはhttps://github.com/allenai/ms2で入手できる。

関連論文リスト

OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive [50.468138755368805]
オピオイド危機は公衆衛生にとって重要な瞬間である。 UCSF-JHU Opioid Industry Documents Archive(OIDA)に公開されているデータと文書本稿では,文書属性に応じて元のデータセットを整理することで,この問題に対処する。
論文参考訳（メタデータ） (2025-11-13T03:27:32Z)
Biomedical Literature Q&A System Using Retrieval-Augmented Generation (RAG) [0.0]
本報告では, バイオメディカル文献質問応答システム(Q&A)について述べる。このシステムは、PubMedの記事、キュレートされたQ&Aデータセット、医療百科事典など、さまざまなソースを統合している。このシステムは一般の医療クエリとドメイン固有のタスクの両方をサポートし、乳がんの文献に焦点を絞った評価を行う。
論文参考訳（メタデータ） (2025-09-05T21:29:52Z)
Biomed-Enriched: A Biomedical Dataset Enriched with LLMs for Pretraining and Extracting Rare and Hidden Content [0.10241134756773229]
2段階のアノテーションプロセスを通じてPubMedから構築されたバイオメディカルテキストデータセットであるBiomed-Enrichedを紹介する。第一段階では、大きな言語モデルがPubMedの科学論文から400K節を注釈付けし、それらのタイプ(レビュー、研究、臨床ケースなど)、ドメイン(クリニカル、バイオメディカルなど)、教育的品質にスコアを割り当てている。得られたメタデータは, 市販ライセンスのある記事から, 450万以上の高品質なものを含む200万件の症例を含む, 精巧なサブセットを抽出することができる。
論文参考訳（メタデータ） (2025-06-25T11:30:25Z)
MedBookVQA: A Systematic and Comprehensive Medical Benchmark Derived from Open-Access Book [5.318470975871017]
MedBookVQAは、オープンアクセス医療教科書から派生した、体系的で包括的なマルチモーダルベンチマークである。当科では, モダリティ認識, 分類, 解剖学的診断, 症状診断, 外科的手術を含む, 5000の臨床的関連質問項目を作成した。我々は、プロプライエタリ、オープンソース、医療、推論モデルを含む幅広いMLLMを評価し、タスクタイプとモデルカテゴリ間での大幅なパフォーマンス格差を明らかにした。
論文参考訳（メタデータ） (2025-06-01T06:28:36Z)
Manalyzer: End-to-end Automated Meta-analysis with Multi-agent System [48.093356587573666]
メタアナリシス(Meta-analysis)は、複数の既存の研究からデータを合成し、包括的な結論を導き出す体系的な研究手法である。伝統的なメタ分析は、文献検索、紙のスクリーニング、データ抽出を含む複雑な多段階パイプラインを含む。本稿では,ツールコールによるエンドツーエンドの自動メタ分析を実現するマルチエージェントシステムManalyzerを提案する。
論文参考訳（メタデータ） (2025-05-22T07:25:31Z)
Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。 ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。 LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文参考訳（メタデータ） (2025-05-03T14:21:48Z)
Zero-Shot Document-Level Biomedical Relation Extraction via Scenario-based Prompt Design in Two-Stage with LLM [7.808231572590279]
ハードウェアと労働コストの低い汎用大言語モデル (LLM) を用いて, 注釈のない完全文書から同じ結果を得るための新しい手法を提案する。我々のアプローチは、名前付きエンティティ認識(NER)と関係抽出(RE)の2つの主要な段階を組み合わせる。本稿では,プロンプトの有効性を高めるために,5部テンプレート構造とシナリオに基づくプロンプト設計の原理を提案する。
論文参考訳（メタデータ） (2025-05-02T07:33:20Z)
TheBlueScrubs-v1, a comprehensive curated medical dataset derived from the internet [1.4043931310479378]
BlueScrubs-v1は、広範囲のインターネットコーパスから得られた2500億以上の医療トークンの収集されたデータセットである。各テキストには、医療関連性、精度、事実の詳細、安全性と倫理基準を含む3つのLCMベースの品質スコアが割り当てられている。このData Descriptorは、データセットの作成と検証について詳述し、医療AI研究の潜在的有用性について説明している。
論文参考訳（メタデータ） (2025-04-01T22:25:19Z)
A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI [70.06771291117965]
PubMed Central Open Accessサブセットから派生したオープンソースのデータセットであるBiomedicaを紹介する。 Biomedicaには600万以上の科学論文と2400万の画像テキストペアが含まれている。私たちは、Webサーバを通じてスケーラブルなストリーミングと検索APIを提供し、AIシステムとのシームレスな統合を容易にします。
論文参考訳（メタデータ） (2025-03-26T05:56:46Z)
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。 BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文参考訳（メタデータ） (2025-01-13T09:58:03Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
NeuroSym-BioCAT: Leveraging Neuro-Symbolic Methods for Biomedical Scholarly Document Categorization and Question Answering [0.14999444543328289]
本稿では,最適化されたトピックモデリングフレームワークであるOVB-LDAとBI-POP CMA-ES最適化技術を統合し,学術文書の抽象分類を強化した新しい手法を提案する。我々は、ドメイン固有データに基づいて微調整された蒸留MiniLMモデルを用いて、高精度な回答抽出を行う。
論文参考訳（メタデータ） (2024-10-29T14:45:12Z)
AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels [19.90354530235266]
本稿では,自己学習仮説文書埋め込み (SL-HyDE) という新しい手法を導入し,この問題に対処する。 SL-HyDEは、与えられたクエリに基づいて仮説文書を生成するために、大きな言語モデル(LLM)をジェネレータとして利用する。実世界の医療シナリオを基盤とした総合的な評価フレームワークとして,中国医療情報検索ベンチマーク(CMIRB)を提案する。
論文参考訳（メタデータ） (2024-10-26T02:53:20Z)
Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文参考訳（メタデータ） (2023-12-21T14:26:57Z)
Clinfo.ai: An Open-Source Retrieval-Augmented Large Language Model System for Answering Medical Questions using Scientific Literature [44.715854387549605]
我々はClinfo.aiをリリースした。Clinfo.aiはオープンソースのWebアプリケーションで、動的に検索された科学的文献に基づいて臨床上の質問に答える。我々は PubMedRS-200 上で Clinfo.ai および他の公開 OpenQA システムのベンチマーク結果を報告する。
論文参考訳（メタデータ） (2023-10-24T19:43:39Z)
A systematic evaluation of large language models for biomedical natural language processing: benchmarks, baselines, and recommendations [22.668383945059762]
そこで本研究では,12個のBioNLPデータセットにまたがる4つの代表言語モデル(LLM)を体系的に評価する。評価は、ゼロショット、静的少数ショット、動的Kアネレスト、微調整の4つの設定で行われる。これらのモデルと最先端(SOTA)アプローチを比較し、細い(ドメイン固有の)BERTモデルやBARTモデルと比較する。
論文参考訳（メタデータ） (2023-05-10T13:40:06Z)
Development and validation of a natural language processing algorithm to pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。臨床文献のコーパスを12種類に分類した。私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文参考訳（メタデータ） (2023-03-23T17:17:46Z)
Multimodal Machine Learning in Precision Health [10.068890037410316]
本総説は, この分野を要約し, 今後の研究に欠かせない話題を特定するものである。コンテンツ分析と文献検索を組み合わせて,2011年から2021年にかけてPubMed, Google Scholar, IEEEXploreの検索文字列とデータベースを構築した。情報融合の最も一般的な形態は、初期の融合であり、特に、異種データ融合を行う予測性能の改善があった。
論文参考訳（メタデータ） (2022-04-10T21:56:07Z)
Domain-Specific Pretraining for Vertical Search: Case Study on Biomedical Literature [67.4680600632232]
自己教師型学習は、アノテーションのボトルネックを克服するための有望な方向として現れました。本稿では,ドメイン固有の事前学習に基づく垂直探索手法を提案する。我々のシステムはPubMed上で何千万もの記事にスケールでき、Microsoft Biomedical Searchとしてデプロイされている。
論文参考訳（メタデータ） (2021-06-25T01:02:55Z)
SummPip: Unsupervised Multi-Document Summarization with Sentence Graph Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文参考訳（メタデータ） (2020-07-17T13:01:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。