論文の概要: RWESummary: A Framework and Test for Choosing Large Language Models to Summarize Real-World Evidence (RWE) Studies
- arxiv url: http://arxiv.org/abs/2506.18819v1
- Date: Mon, 23 Jun 2025 16:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.087458
- Title: RWESummary: A Framework and Test for Choosing Large Language Models to Summarize Real-World Evidence (RWE) Studies
- Title(参考訳): RWESummary: 実世界のエビデンス(RWE)研究を要約する大規模言語モデル選択のためのフレームワークとテスト
- Authors: Arjun Mukerji, Michael L. Jackson, Jason Jones, Neil Sanghavi,
- Abstract要約: 大言語モデル (LLM) は総合的な要約作業や医学研究支援のために広く評価されている。
本稿では,MedHELMフレームワークへの追加としてRWESummaryを導入し,LLMのベンチマークを可能にする。
RWESummaryには1つのシナリオと3つの評価がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have been extensively evaluated for general summarization tasks as well as medical research assistance, but they have not been specifically evaluated for the task of summarizing real-world evidence (RWE) from structured output of RWE studies. We introduce RWESummary, a proposed addition to the MedHELM framework (Bedi, Cui, Fuentes, Unell et al., 2025) to enable benchmarking of LLMs for this task. RWESummary includes one scenario and three evaluations covering major types of errors observed in summarization of medical research studies and was developed using Atropos Health proprietary data. Additionally, we use RWESummary to compare the performance of different LLMs in our internal RWE summarization tool. At the time of publication, with 13 distinct RWE studies, we found the Gemini 2.5 models performed best overall (both Flash and Pro). We suggest RWESummary as a novel and useful foundation model benchmark for real-world evidence study summarization.
- Abstract(参考訳): 大規模言語モデル (LLMs) は, 総合的な要約作業や医学研究支援のために広く評価されてきたが, RWE研究の構造化成果から実世界の証拠(RWE)を要約する作業には特に評価されていない。
本稿では,MedHELM フレームワーク (Bedi, Cui, Fuentes, Unell et al , 2025) の追加として RWESummary を導入する。
RWESummaryには1つのシナリオと3つの評価があり、医学研究の要約において観察される大きなタイプのエラーをカバーし、Atropos Healthのプロプライエタリなデータを用いて開発された。
さらに、RWESummaryを用いて、内部のRWE要約ツールで異なるLLMの性能を比較する。
出版時点では、13の異なるRWE研究により、Gemini 2.5モデルが全体的なパフォーマンス(FlashとProの両方)において最も優れていたことが分かりました。
我々は,RWESummaryを実世界のエビデンス研究のための新規かつ有用な基礎モデルベンチマークとして提案する。
関連論文リスト
- 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models [58.98176123850354]
最近のDeepSeek-R1のリリースは、広く社会的影響をもたらし、言語モデルの明確な推論パラダイムを探求する研究コミュニティに熱意を喚起した。
リリースされたモデルの実装詳細は、DeepSeek-R1-Zero、DeepSeek-R1、蒸留された小型モデルなど、DeepSeekによって完全にオープンソース化されていない。
多くのレプリケーション研究は、DeepSeek-R1が達成した強力なパフォーマンスを再現することを目的として、同様のトレーニング手順と完全なオープンソースデータリソースを通じて、同等のパフォーマンスに到達している。
論文 参考訳(メタデータ) (2025-05-01T14:28:35Z) - Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark [54.93461228053298]
6つの公開データセットと12のベンチマークモデルと、トレーニングと評価パイプラインで構成されるベンチマークである textbfScenario-Wise Rec を紹介します。
このベンチマークは、研究者に先行研究から貴重な洞察を提供することを目的としており、新しいモデルの開発を可能にしている。
論文 参考訳(メタデータ) (2024-12-23T08:15:34Z) - RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing [0.2302001830524133]
本稿では,検索言語モデル (RALM) に関する総合的な概要の欠如について論じる。
本稿では、Retrievers、Language Models、Augmentationsなど、ALMの本質的なコンポーネントについて論じる。
RALMは、翻訳や対話システムから知識集約アプリケーションまで、様々なタスクにおいて有用性を示す。
論文 参考訳(メタデータ) (2024-04-30T13:14:51Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。
異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文 参考訳(メタデータ) (2022-12-19T23:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。