Fugu-MT 論文翻訳(概要): CLUE: A Clinical Language Understanding Evaluation for LLMs

論文の概要: CLUE: A Clinical Language Understanding Evaluation for LLMs

arxiv url: http://arxiv.org/abs/2404.04067v2
Date: Thu, 11 Apr 2024 13:10:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 17:56:32.772914
Title: CLUE: A Clinical Language Understanding Evaluation for LLMs
Title（参考訳）: CLUE:LLMの臨床言語理解評価
Authors: Amin Dada, Marie Bauer, Amanda Butler Contreras, Osman Alperen Koraş, Constantin Marc Seibold, Kaleb E Smith, Jens Kleesiek,
Abstract要約: 大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献する可能性を示している。これらのモデルの評価は、主に非クリニカルなタスクに限られている。本研究は,現実的な臨床業務におけるLLMの評価に適したベンチマークであるCLUEについて述べる。
参考スコア（独自算出の注目度）: 2.3814275542331385
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) have shown the potential to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs address healthcare-specific challenges, including privacy demands and computational constraints. However, evaluation of these models has primarily been limited to non-clinical tasks, which do not reflect the complexity of practical clinical applications. Additionally, there has been no thorough comparison between biomedical and general-domain LLMs for clinical tasks. To fill this gap, we present the Clinical Language Understanding Evaluation (CLUE), a benchmark tailored to evaluate LLMs on real-world clinical tasks. CLUE includes two novel datasets derived from MIMIC IV discharge letters and four existing tasks designed to test the practical applicability of LLMs in healthcare settings. Our evaluation covers several biomedical and general domain LLMs, providing insights into their clinical performance and applicability. CLUE represents a step towards a standardized approach to evaluating and developing LLMs in healthcare to align future model development with the real-world needs of clinical application. We publish our evaluation and data generation scripts: https://github.com/TIO-IKIM/CLUE.
Abstract（参考訳）: 大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献する可能性を示している。新たなバイオメディカルLLMは、プライバシ要求や計算上の制約を含む、医療特有の課題に対処する。しかし、これらのモデルの評価は主に臨床応用の複雑さを反映しない非臨床的なタスクに限られている。また,臨床業務における生物医学と一般ドメインLLMの徹底的な比較は行われていない。このギャップを埋めるために,実世界の臨床におけるLCMを評価するためのベンチマークであるCLUE(CLUE)を提案する。 CLUEには、MIMIC IV放電文字から派生した2つの新しいデータセットと、医療環境におけるLSMの実用性をテストするために設計された4つの既存のタスクが含まれている。バイオメディカルおよび一般分野のLSMについて検討し,臨床成績と適用性について考察した。 CLUEは、医療におけるLCMの評価と開発のための標準化されたアプローチへの一歩であり、将来のモデル開発と臨床応用の現実的なニーズを整合させるものである。評価とデータ生成のスクリプトを公開します。

関連論文リスト

MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。 MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文参考訳（メタデータ） (2025-07-07T17:01:44Z)
AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。 AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文参考訳（メタデータ） (2025-05-17T07:44:54Z)
UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation [18.550642453062228]
バイオメディカル画像解釈のための基礎モデルUniBiomedを紹介する。 UniBiomedは正確な診断結果を生成し、対応するバイオメディカルターゲットを同時にセグメンテーションすることができる。 UniBiomedを開発するために,2700万以上の画像,領域アノテーション,テキスト記述を含む大規模データセットをキュレートする。
論文参考訳（メタデータ） (2025-04-30T05:51:48Z)
Biomedical Foundation Model: A Survey [84.26268124754792]
ファンデーションモデルは、広範なラベルなしデータセットから学習する大規模な事前訓練モデルである。これらのモデルは、質問応答や視覚的理解といった様々な応用に適応することができる。本研究は,生物医学分野における基礎モデルの可能性を探るものである。
論文参考訳（メタデータ） (2025-03-03T22:42:00Z)
MedBioLM: Optimizing Medical and Biological QA with Fine-Tuned Large Language Models and Retrieval-Augmented Generation [0.0]
本稿では,ドメイン適応型バイオメディカル質問応答モデルであるMedBioLMを紹介する。 MedBioLMは、微調整および検索拡張生成(RAG)を統合することで、ドメイン固有の知識を動的に組み込む。微調整はベンチマークデータセットの精度を大幅に向上する一方、RAGは事実整合性を高める。
論文参考訳（メタデータ） (2025-02-05T08:58:35Z)
LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文参考訳（メタデータ） (2024-12-31T19:55:45Z)
Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data [3.469567586411153]
大規模言語モデル (LLM) は、生物医学的応用の可能性を示しており、それらをドメイン固有のデータに微調整する努力に繋がった。本研究は, バイオメディカル微調整LDMの多種多様な臨床課題における汎用性に対する性能評価を行った。
論文参考訳（メタデータ） (2024-08-25T13:36:22Z)
STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。 STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文参考訳（メタデータ） (2024-06-28T15:01:23Z)
BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers [48.21255861863282]
BMRetrieverは、バイオメディカル検索を強化するための一連の密集したレトリバーである。 BMRetrieverは強力なパラメータ効率を示し、410Mの派生型はベースラインを最大11.7倍まで上回っている。
論文参考訳（メタデータ） (2024-04-29T05:40:08Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry [2.1717945745027425]
大規模言語モデル(LLM)は、言語理解と生成の高度な能力で様々な産業に影響を与えている。この包括的調査は、医療におけるLSMの広範な適用と必要な評価を概説する。本調査は,臨床環境,医療用テキストデータ処理,研究,教育,公衆衛生への意識といった分野におけるLCM応用の詳細な分析を行うために構成されている。
論文参考訳（メタデータ） (2024-04-24T09:55:24Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文参考訳（メタデータ） (2023-07-26T17:52:22Z)
BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文参考訳（メタデータ） (2023-05-26T17:14:43Z)
Large Language Models for Biomedical Knowledge Graph Construction: Information extraction from EMR notes [0.0]
大規模言語モデル(LLM)に基づくエンドツーエンド機械学習ソリューションを提案する。 KG構築プロセスで使用される物質は、疾患、因子、治療、および疾患を経験中に患者と共存する症状である。提案手法の応用は加齢に伴う黄斑変性に対して実証される。
論文参考訳（メタデータ） (2023-01-29T15:52:33Z)
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文参考訳（メタデータ） (2021-06-15T12:25:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。