Fugu-MT 論文翻訳(概要): Evaluation of Large Language Models for Summarization Tasks in the Medical Domain: A Narrative Review

論文の概要: Evaluation of Large Language Models for Summarization Tasks in the Medical Domain: A Narrative Review

arxiv url: http://arxiv.org/abs/2409.18170v1
Date: Thu, 26 Sep 2024 17:58:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 15:31:30.989721
Title: Evaluation of Large Language Models for Summarization Tasks in the Medical Domain: A Narrative Review
Title（参考訳）: 医学領域における要約課題のための大規模言語モデルの評価:ナラティブレビュー
Authors: Emma Croxford, Yanjun Gao, Nicholas Pellegrino, Karen K. Wong, Graham Wills, Elliot First, Frank J. Liao, Cherodeep Goswami, Brian Patterson, Majid Afshar,
Abstract要約: 大規模言語モデルは、高度な臨床自然言語生成を持ち、医療用テキストの量を管理する機会を生み出している。臨床要約タスクの現在の評価状況を評価し,専門家による評価の資源制約に対処するための今後の方向性を提案する。
参考スコア（独自算出の注目度）: 3.567079985413871
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models have advanced clinical Natural Language Generation, creating opportunities to manage the volume of medical text. However, the high-stakes nature of medicine requires reliable evaluation, which remains a challenge. In this narrative review, we assess the current evaluation state for clinical summarization tasks and propose future directions to address the resource constraints of expert human evaluation.
Abstract（参考訳）: 大規模言語モデルは、高度な臨床自然言語生成を持ち、医療用テキストの量を管理する機会を生み出している。しかし, 医療の高度化には信頼性の高い評価が必要であり, 依然として課題である。本稿では,臨床要約タスクの現況評価を行い,専門家による評価の資源制約に対処するための今後の方向性を提案する。

関連論文リスト

CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field [41.26267474136343]
CareMedEvalは,大規模言語モデル(LLM)を重要な評価タスクで評価するために設計された,オリジナルのデータセットである。 CareMedEvalは、科学論文に根ざした批判的な読解と推論を明確に評価している。各種環境条件下でのバイオメディカル・特殊化LDMのベンチマークにより,課題の難しさが明らかになった。
論文参考訳（メタデータ） (2025-11-05T13:02:06Z)
MedKGEval: A Knowledge Graph-Based Multi-Turn Evaluation Framework for Open-Ended Patient Interactions with Clinical LLMs [19.12790150016383]
MedKGEvalは、臨床用大規模言語モデルのための新しいマルチターン評価フレームワークである。知識グラフ駆動患者シミュレーション機構は、キュレートされた知識グラフから関連する医療事実を検索する。ターンレベル評価フレームワークは、各モデル応答を臨床的適切性、事実的正当性、安全性について評価する。
論文参考訳（メタデータ） (2025-10-14T07:22:26Z)
AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。 AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文参考訳（メタデータ） (2025-05-17T07:44:54Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
The Role of Language Models in Modern Healthcare: A Comprehensive Review [2.048226951354646]
医療における大規模言語モデル(LLM)の適用は注目されている。本稿では,言語モデルの初期から現在までの軌跡を概観する。
論文参考訳（メタデータ） (2024-09-25T12:15:15Z)
Towards Leveraging Large Language Models for Automated Medical Q&A Evaluation [2.7379431425414693]
本稿では,大規模言語モデル(LLM)を用いて,Q&Aシステムにおける応答評価を自動化する可能性について検討する。
論文参考訳（メタデータ） (2024-09-03T14:38:29Z)
What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文参考訳（メタデータ） (2024-08-26T20:35:42Z)
SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
Evaluation of Language Models in the Medical Context Under Resource-Constrained Settings [10.39989311209284]
医療分野における言語モデルに関する総合的な調査を行った。医療用テキスト分類と条件付きテキスト生成のためのサブセットの評価を行った。その結果、タスク全体での顕著なパフォーマンスが明らかとなり、特定のモデルが医療知識を含む可能性について評価された。
論文参考訳（メタデータ） (2024-06-24T12:52:02Z)
Natural Language Programming in Medicine: Administering Evidence Based Clinical Workflows with Autonomous Agents Powered by Generative Large Language Models [29.05425041393475]
ジェネレーティブ・大型言語モデル(LLM)は医療において大きな可能性を秘めている。本研究は, シミュレーション3次医療センターにおいて, 自律型エージェントとして機能するLSMの可能性を評価した。
論文参考訳（メタデータ） (2024-01-05T15:09:57Z)
Evaluating Large Language Models for Radiology Natural Language Processing [68.98847776913381]
大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。本研究は, 放射線学報告の解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。
論文参考訳（メタデータ） (2023-07-25T17:57:18Z)
Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文参考訳（メタデータ） (2023-05-01T17:36:06Z)
Towards more patient friendly clinical notes through language models and ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文参考訳（メタデータ） (2021-12-23T16:11:19Z)
Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文参考訳（メタデータ） (2021-08-02T10:42:52Z)
Benchmarking Automated Clinical Language Simplification: Dataset, Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2020-12-04T06:09:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。