Fugu-MT 論文翻訳(概要): Named Clinical Entity Recognition Benchmark

論文の概要: Named Clinical Entity Recognition Benchmark

arxiv url: http://arxiv.org/abs/2410.05046v1
Date: Mon, 7 Oct 2024 14:00:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 00:38:19.128503
Title: Named Clinical Entity Recognition Benchmark
Title（参考訳）: Named Clinical Entity Recognition Benchmark
Authors: Wadood M Abdul, Marco AF Pimentel, Muhammad Umar Salman, Tathagata Raha, Clément Christophe, Praveen K Kanithi, Nasir Hayat, Ronnie Rajan, Shadab Khan,
Abstract要約: 本報告では, 名前付き臨床エンティティ認識ベンチマークを紹介する。臨床物語から構造化された情報を抽出する重要な自然言語処理(NLP)タスクに対処する。リーダーボードは多様な言語モデルを評価するための標準化されたプラットフォームを提供する。
参考スコア（独自算出の注目度）: 2.9332007863461893
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This technical report introduces a Named Clinical Entity Recognition Benchmark for evaluating language models in healthcare, addressing the crucial natural language processing (NLP) task of extracting structured information from clinical narratives to support applications like automated coding, clinical trial cohort identification, and clinical decision support. The leaderboard provides a standardized platform for assessing diverse language models, including encoder and decoder architectures, on their ability to identify and classify clinical entities across multiple medical domains. A curated collection of openly available clinical datasets is utilized, encompassing entities such as diseases, symptoms, medications, procedures, and laboratory measurements. Importantly, these entities are standardized according to the Observational Medical Outcomes Partnership (OMOP) Common Data Model, ensuring consistency and interoperability across different healthcare systems and datasets, and a comprehensive evaluation of model performance. Performance of models is primarily assessed using the F1-score, and it is complemented by various assessment modes to provide comprehensive insights into model performance. The report also includes a brief analysis of models evaluated to date, highlighting observed trends and limitations. By establishing this benchmarking framework, the leaderboard aims to promote transparency, facilitate comparative analyses, and drive innovation in clinical entity recognition tasks, addressing the need for robust evaluation methods in healthcare NLP.
Abstract（参考訳）: 本技術報告では,医療における言語モデル評価のための名前付き臨床エンティティ認識ベンチマークを導入し,臨床物語から構造化された情報を抽出し,自動コーディング,臨床治験コホート識別,臨床意思決定支援などのアプリケーションを支援する,重要な自然言語処理(NLP)タスクに対処する。リーダーボードは、エンコーダやデコーダアーキテクチャを含む多様な言語モデルを評価するための標準化されたプラットフォームを提供する。公開可能な臨床データセットのキュレートされたコレクションが利用され、疾患、症状、薬物、処置、実験室の測定などのエンティティを含む。重要なのは、これらのエンティティは、観測医療成果パートナーシップ(OMOP)共通データモデルに従って標準化され、さまざまな医療システムやデータセット間の一貫性と相互運用性が保証され、モデルパフォーマンスの包括的な評価が行われます。モデルの性能は、主にF1スコアを用いて評価され、モデル性能に関する総合的な洞察を提供するために、様々な評価モードによって補完される。レポートには、これまでに評価されたモデルの簡単な分析も含まれており、観察されたトレンドと制限を強調している。このベンチマークフレームワークを確立することにより、医療NLPにおける堅牢な評価方法の必要性に対処し、透明性を促進し、比較分析を促進し、臨床エンティティ認識タスクの革新を促進することを目指している。

関連論文リスト

MED-COPILOT: A Medical Assistant Powered by GraphRAG and Similar Patient Case Retrieval [12.265116154395434]
MED-COPILOTは,臨床医と研修医を対象としたインタラクティブな臨床意思決定支援システムである。このシステムはWHOとNICEのガイドラインから構造化知識グラフを構築し、効率的な検索にコミュニティレベルの要約を適用し、36,000ケースの類似患者データベースを維持している。
論文参考訳（メタデータ） (2026-02-28T04:32:03Z)
AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文参考訳（メタデータ） (2026-01-23T11:59:13Z)
MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models [15.91764739198419]
5,200件の患者と6万件以上のきめ細粒度評価ルーブリックからなる新規なベンチマークであるMedDialogRubricsについて紹介する。本フレームワークでは,実世界の電子的健康記録にアクセスすることなく,現実的な患者記録と主訴を合成するマルチエージェントシステムを採用している。
論文参考訳（メタデータ） (2026-01-06T13:56:33Z)
ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文参考訳（メタデータ） (2025-12-29T12:58:58Z)
Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
Retrieval-Augmented Framework for LLM-Based Clinical Decision Support [0.19999259391104388]
本稿では,大言語モデル(LLM)を用いた臨床意思決定支援システムを提案する。このフレームワークは自然言語処理と構造化された臨床入力を統合し、文脈に関連のあるレコメンデーションを生成する。本稿では,表現表現のアライメントや生成戦略など,システムの技術的コンポーネントについて概説する。
論文参考訳（メタデータ） (2025-10-01T18:45:25Z)
Position: Thematic Analysis of Unstructured Clinical Transcripts with Large Language Models [5.398283020969301]
LLM(Large Language Model)は、構造化されていない臨床転写のセマンティック解析をサポートする。既存の評価方法は大きく異なり、進歩を妨げ、研究全体で有意義なベンチマークを防ぐ。本稿では,妥当性,信頼性,解釈可能性の3つの側面に着目した評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-18T04:02:00Z)
Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation [32.410641778559544]
ICARE (Interpretable and Clinicallygrounded Agent-based Report Evaluation) は、解釈可能な評価フレームワークである。 2つのエージェントは、それぞれが基礎的真実または生成されたレポートを持ち、臨床的に有意義な質問を発生し、互いにクイズする。スコアを質問応答ペアにリンクすることで、ICAREは透明で解釈可能な評価を可能にする。
論文参考訳（メタデータ） (2025-08-04T18:28:03Z)
Bringing CLIP to the Clinic: Dynamic Soft Labels and Negation-Aware Learning for Medical Analysis [0.9944647907864256]
臨床的に強化されたダイナミック・ソフト・ラベルと医用グラフィカル・アライメントを統合した新しいアプローチを提案する。われわれのアプローチは、医療用CLIPトレーニングパイプラインに容易に統合され、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-28T08:00:18Z)
Performance of Large Language Models in Supporting Medical Diagnosis and Treatment [0.0]
AI駆動システムは、膨大なデータセットを分析し、臨床医が病気を特定し、治療を推奨し、患者の結果を予測するのを支援する。本研究は,2024年のポルトガル国立試験場において,オープンソースモデルとクローズドソースモデルの両方を含む,現代LLMの性能評価を行った。
論文参考訳（メタデータ） (2025-04-14T16:53:59Z)
Systematic Literature Review on Clinical Trial Eligibility Matching [0.24554686192257422]
レビューでは、説明可能なAIと標準化されたオントロジーがクリニックの信頼を高め、採用を広げる方法が強調されている。臨床治験採用におけるNLPの変革的ポテンシャルを十分に実現するためには、高度な意味的および時間的表現、拡張されたデータ統合、厳密な予測的評価のさらなる研究が必要である。
論文参考訳（メタデータ） (2025-03-02T11:45:50Z)
ELMTEX: Fine-Tuning Large Language Models for Structured Clinical Information Extraction. A Case Study on Clinical Reports [3.0363830583066713]
本稿では,Large Language Models (LLMs) を用いて,構造化されていない臨床報告から構造化情報を抽出することを目的としたプロジェクトの結果について述べる。我々は,ユーザインタフェースを用いたワークフローを開発し,戦略と微調整により,様々なサイズのLCMを評価した。以上の結果から,微調整された小型モデルでは性能が向上し,資源制限設定の効率化が期待できることがわかった。
論文参考訳（メタデータ） (2025-02-08T16:44:56Z)
CLINICSUM: Utilizing Language Models for Generating Clinical Summaries from Patient-Doctor Conversations [2.77462589810782]
クリニックサムは、患者と医師の会話から臨床要約を自動的に生成するように設計されたフレームワークである。自動測定(ROUGE、BERTScoreなど)と専門家による評価によって評価される。
論文参考訳（メタデータ） (2024-12-05T15:34:02Z)
MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文参考訳（メタデータ） (2024-09-11T14:44:51Z)
A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry [2.1717945745027425]
大規模言語モデル(LLM)は、言語理解と生成の高度な能力で様々な産業に影響を与えている。この包括的調査は、医療におけるLSMの広範な適用と必要な評価を概説する。本調査は,臨床環境,医療用テキストデータ処理,研究,教育,公衆衛生への意識といった分野におけるLCM応用の詳細な分析を行うために構成されている。
論文参考訳（メタデータ） (2024-04-24T09:55:24Z)
Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-03-25T06:17:54Z)
Language Model Training Paradigms for Clinical Feature Embeddings [1.4513150969598638]
言語モデルのための自己教師型トレーニングパラダイムを用いて,高品質な臨床機能埋め込みを学習する。教師なし次元縮小技術を用いて学習者の埋め込みを可視化し,先行臨床知識と高度に整合性を観察する。
論文参考訳（メタデータ） (2023-11-01T18:23:12Z)
Emulating Human Cognitive Processes for Expert-Level Medical Question-Answering with Large Language Models [0.23463422965432823]
BooksMedはLarge Language Model(LLM)に基づいた新しいフレームワークである人間の認知プロセスをエミュレートして、エビデンスベースの信頼性の高い応答を提供する。本稿では、専門家レベルのオープンエンドな質問からなるベンチマークであるExpertMedQAを紹介する。
論文参考訳（メタデータ） (2023-10-17T13:39:26Z)
A Transformer-based representation-learning model with unified processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文参考訳（メタデータ） (2023-06-01T16:23:47Z)
Development and validation of a natural language processing algorithm to pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。臨床文献のコーパスを12種類に分類した。私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文参考訳（メタデータ） (2023-03-23T17:17:46Z)
This Patient Looks Like That Patient: Prototypical Networks for Interpretable Diagnosis Prediction from Clinical Text [56.32427751440426]
臨床実践においては、そのようなモデルは正確であるだけでなく、医師に解釈可能で有益な結果を与える必要がある。本稿では,プロトタイプネットワークに基づく新しい手法であるProtoPatientを紹介する。利用可能な2つの臨床データセット上でモデルを評価し、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-16T10:12:07Z)
Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文参考訳（メタデータ） (2021-08-02T10:42:52Z)
Benchmarking Automated Clinical Language Simplification: Dataset, Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2020-12-04T06:09:02Z)
Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文参考訳（メタデータ） (2020-05-15T06:57:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。