論文の概要: Evaluation of Clinical Trials Reporting Quality using Large Language Models
- arxiv url: http://arxiv.org/abs/2510.04338v1
- Date: Sun, 05 Oct 2025 20:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.590853
- Title: Evaluation of Clinical Trials Reporting Quality using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた臨床検査の質評価
- Authors: Mathieu Laï-king, Patrick Paroubek,
- Abstract要約: 本研究では,CONSORT-abstract 標準を用いた抽象的な報告品質に関する2つの研究から評価コーパスを作成する。
次に, CONSORT基準を正しく評価する大規模生成言語モデルの評価を行った。
モデルとプロンプトの最良の組み合わせは85%の精度を実現する。
- 参考スコア(独自算出の注目度): 0.9453554184019106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reporting quality is an important topic in clinical trial research articles, as it can impact clinical decisions. In this article, we test the ability of large language models to assess the reporting quality of this type of article using the Consolidated Standards of Reporting Trials (CONSORT). We create CONSORT-QA, an evaluation corpus from two studies on abstract reporting quality with CONSORT-abstract standards. We then evaluate the ability of different large generative language models (from the general domain or adapted to the biomedical domain) to correctly assess CONSORT criteria with different known prompting methods, including Chain-of-thought. Our best combination of model and prompting method achieves 85% accuracy. Using Chain-of-thought adds valuable information on the model's reasoning for completing the task.
- Abstract(参考訳): 報告品質は臨床研究論文において重要なトピックであり、臨床上の決定に影響を及ぼす可能性がある。
本稿では,consolidated Standards of Reporting Trials(CONSORT)を用いて,このタイプの論文の報告品質を評価するための大規模言語モデルの能力をテストする。
CONSORT-QAは,CONSORT-abstract標準を用いた抽象的な報告品質に関する2つの研究から得られた評価コーパスである。
そこで我々は,ConSORTの基準を,Chain-of-Thoughtを含む様々な既知のプロンプト手法で正しく評価する,異なる大規模生成言語モデル(一般領域から,あるいはバイオメディカル領域に適応する)の能力を評価する。
モデルとプロンプトの最良の組み合わせは85%の精度を実現する。
Chain-of-Thoughtを使用することで、タスクを完了するためのモデルの推論に関する貴重な情報が追加されます。
関連論文リスト
- Position: Thematic Analysis of Unstructured Clinical Transcripts with Large Language Models [5.398283020969301]
LLM(Large Language Model)は、構造化されていない臨床転写のセマンティック解析をサポートする。
既存の評価方法は大きく異なり、進歩を妨げ、研究全体で有意義なベンチマークを防ぐ。
本稿では,妥当性,信頼性,解釈可能性の3つの側面に着目した評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T04:02:00Z) - Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation [32.410641778559544]
ICARE (Interpretable and Clinicallygrounded Agent-based Report Evaluation) は、解釈可能な評価フレームワークである。
2つのエージェントは、それぞれが基礎的真実または生成されたレポートを持ち、臨床的に有意義な質問を発生し、互いにクイズする。
スコアを質問応答ペアにリンクすることで、ICAREは透明で解釈可能な評価を可能にする。
論文 参考訳(メタデータ) (2025-08-04T18:28:03Z) - Mind the Gap: Benchmarking LLM Uncertainty, Discrimination, and Calibration in Specialty-Aware Clinical QA [4.501692468580528]
臨床質問応答(QA)に焦点を当てた不確実性評価手法の評価を行った。
本稿では,推論指向モデルに基づく行動特徴に基づく,新しい軽量な手法を提案する。
以上の結果から,不確実性はモノリシックな性質ではなく,臨床専門性や質問タイプに依存していることが明らかとなった。
論文 参考訳(メタデータ) (2025-06-12T14:48:25Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Named Clinical Entity Recognition Benchmark [2.9332007863461893]
本報告では, 名前付き臨床エンティティ認識ベンチマークを紹介する。
臨床物語から構造化された情報を抽出する重要な自然言語処理(NLP)タスクに対処する。
リーダーボードは多様な言語モデルを評価するための標準化されたプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-10-07T14:00:18Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - AutoTrial: Prompting Language Models for Clinical Trial Design [53.630479619856516]
本稿では,言語モデルを用いた臨床検査基準の設計を支援するAutoTrialという手法を提案する。
70K以上の臨床試験で、AutoTrialが高品質な基準テキストを生成することが確認された。
論文 参考訳(メタデータ) (2023-05-19T01:04:16Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。