Fugu-MT 論文翻訳(概要): CLUE: A Clinical Language Understanding Evaluation for LLMs

論文の概要: CLUE: A Clinical Language Understanding Evaluation for LLMs

arxiv url: http://arxiv.org/abs/2404.04067v3
Date: Mon, 24 Jun 2024 12:32:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 01:12:30.525585
Title: CLUE: A Clinical Language Understanding Evaluation for LLMs
Title（参考訳）: CLUE:LLMの臨床言語理解評価
Authors: Amin Dada, Marie Bauer, Amanda Butler Contreras, Osman Alperen Koraş, Constantin Marc Seibold, Kaleb E Smith, Jens Kleesiek,
Abstract要約: 大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献することが期待されている。この敏感なアプリケーション領域に対するモデルの適合性を評価することは、非常に重要です。臨床作業におけるLLMの評価に適したベンチマークであるCLUE(Ceriical Language Understanding Evaluation)を提案する。
参考スコア（独自算出の注目度）: 2.3814275542331385
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, evaluation has primarily been limited to non-clinical tasks, which do not reflect the complexity of practical clinical applications. To fill this gap, we present the Clinical Language Understanding Evaluation (CLUE), a benchmark tailored to evaluate LLMs on clinical tasks. CLUE includes six tasks to test the practical applicability of LLMs in complex healthcare settings. Our evaluation includes a total of $25$ LLMs. In contrast to previous evaluations, CLUE shows a decrease in performance for nine out of twelve biomedical models. Our benchmark represents a step towards a standardized approach to evaluating and developing LLMs in healthcare to align future model development with the real-world needs of clinical application. We open-source all evaluation scripts and datasets for future research at https://github.com/TIO-IKIM/CLUE.
Abstract（参考訳）: 大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献することが期待されている。新たなバイオメディカルLLMは、プライバシ要求や計算上の制約を含む、医療特有の課題に対処することを目指している。このセンシティブなアプリケーション領域に対するモデルの適合性を評価することが、最も重要である。しかし、評価は主に臨床応用の複雑さを反映しない非臨床課題に限られている。このギャップを埋めるために臨床言語理解評価(CLUE)を提案する。 CLUEには、複雑な医療環境におけるLCMの実用性をテストするための6つのタスクが含まれている。私たちの評価には、合計25ドルのLLMが含まれています。従来の評価とは対照的に、CLUEは12のバイオメディカルモデルのうち9つの性能の低下を示している。我々のベンチマークは、医療におけるLCMの評価と開発のための標準化されたアプローチへの一歩であり、将来のモデル開発と臨床応用の現実的なニーズを一致させるものである。我々は、将来の研究のためのすべての評価スクリプトとデータセットをhttps://github.com/TIO-IKIM/CLUEでオープンソース化します。

関連論文リスト

MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。 MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文参考訳（メタデータ） (2025-07-07T17:01:44Z)
AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。 AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文参考訳（メタデータ） (2025-05-17T07:44:54Z)
UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation [18.550642453062228]
バイオメディカル画像解釈のための基礎モデルUniBiomedを紹介する。 UniBiomedは正確な診断結果を生成し、対応するバイオメディカルターゲットを同時にセグメンテーションすることができる。 UniBiomedを開発するために,2700万以上の画像,領域アノテーション,テキスト記述を含む大規模データセットをキュレートする。
論文参考訳（メタデータ） (2025-04-30T05:51:48Z)
Biomedical Foundation Model: A Survey [84.26268124754792]
ファンデーションモデルは、広範なラベルなしデータセットから学習する大規模な事前訓練モデルである。これらのモデルは、質問応答や視覚的理解といった様々な応用に適応することができる。本研究は,生物医学分野における基礎モデルの可能性を探るものである。
論文参考訳（メタデータ） (2025-03-03T22:42:00Z)
MedBioLM: Optimizing Medical and Biological QA with Fine-Tuned Large Language Models and Retrieval-Augmented Generation [0.0]
本稿では,ドメイン適応型バイオメディカル質問応答モデルであるMedBioLMを紹介する。 MedBioLMは、微調整および検索拡張生成(RAG)を統合することで、ドメイン固有の知識を動的に組み込む。微調整はベンチマークデータセットの精度を大幅に向上する一方、RAGは事実整合性を高める。
論文参考訳（メタデータ） (2025-02-05T08:58:35Z)
LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文参考訳（メタデータ） (2024-12-31T19:55:45Z)
Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data [3.469567586411153]
大規模言語モデル (LLM) は、生物医学的応用の可能性を示しており、それらをドメイン固有のデータに微調整する努力に繋がった。本研究は, バイオメディカル微調整LDMの多種多様な臨床課題における汎用性に対する性能評価を行った。
論文参考訳（メタデータ） (2024-08-25T13:36:22Z)
STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。 STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文参考訳（メタデータ） (2024-06-28T15:01:23Z)
BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers [48.21255861863282]
BMRetrieverは、バイオメディカル検索を強化するための一連の密集したレトリバーである。 BMRetrieverは強力なパラメータ効率を示し、410Mの派生型はベースラインを最大11.7倍まで上回っている。
論文参考訳（メタデータ） (2024-04-29T05:40:08Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry [2.1717945745027425]
大規模言語モデル(LLM)は、言語理解と生成の高度な能力で様々な産業に影響を与えている。この包括的調査は、医療におけるLSMの広範な適用と必要な評価を概説する。本調査は,臨床環境,医療用テキストデータ処理,研究,教育,公衆衛生への意識といった分野におけるLCM応用の詳細な分析を行うために構成されている。
論文参考訳（メタデータ） (2024-04-24T09:55:24Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文参考訳（メタデータ） (2023-07-26T17:52:22Z)
BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文参考訳（メタデータ） (2023-05-26T17:14:43Z)
Large Language Models for Biomedical Knowledge Graph Construction: Information extraction from EMR notes [0.0]
大規模言語モデル(LLM)に基づくエンドツーエンド機械学習ソリューションを提案する。 KG構築プロセスで使用される物質は、疾患、因子、治療、および疾患を経験中に患者と共存する症状である。提案手法の応用は加齢に伴う黄斑変性に対して実証される。
論文参考訳（メタデータ） (2023-01-29T15:52:33Z)
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文参考訳（メタデータ） (2021-06-15T12:25:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。