論文の概要: Context Matters: Comparison of commercial large language tools in veterinary medicine
- arxiv url: http://arxiv.org/abs/2510.01224v1
- Date: Mon, 22 Sep 2025 18:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 05:29:07.853989
- Title: Context Matters: Comparison of commercial large language tools in veterinary medicine
- Title(参考訳): 文脈事項:獣医学における商業的大規模言語ツールの比較
- Authors: Tyler J Poore, Christopher J Pinard, Aleena Shabbir, Andrew Lagree, Andre Telfer, Kuan-Chuen Wu,
- Abstract要約: 大規模言語モデル (LLM) は, 臨床現場での利用が増えているが, 獣医学での成績はいまだに未熟である。
獣医学記録の標準化データセットを用いて,市販の獣医学用LCM要約ツールを3つ評価した。
製品1の平均スコアは4.61点(IQR: 0.73点)で、製品2では2.55点(IQR: 0.78点)、製品3では2.45点(IQR: 0.92点)であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly used in clinical settings, yet their performance in veterinary medicine remains underexplored. We evaluated three commercially available veterinary-focused LLM summarization tools (Product 1 [Hachiko] and Products 2 and 3) on a standardized dataset of veterinary oncology records. Using a rubric-guided LLM-as-a-judge framework, summaries were scored across five domains: Factual Accuracy, Completeness, Chronological Order, Clinical Relevance, and Organization. Product 1 achieved the highest overall performance, with a median average score of 4.61 (IQR: 0.73), compared to 2.55 (IQR: 0.78) for Product 2 and 2.45 (IQR: 0.92) for Product 3. It also received perfect median scores in Factual Accuracy and Chronological Order. To assess the internal consistency of the grading framework itself, we repeated the evaluation across three independent runs. The LLM grader demonstrated high reproducibility, with Average Score standard deviations of 0.015 (Product 1), 0.088 (Product 2), and 0.034 (Product 3). These findings highlight the importance of veterinary-specific commercial LLM tools and demonstrate that LLM-as-a-judge evaluation is a scalable and reproducible method for assessing clinical NLP summarization in veterinary medicine.
- Abstract(参考訳): 大規模言語モデル (LLM) は, 臨床現場での利用が増えているが, 獣医学での成績はいまだに未熟である。
市販の獣医向けLCM要約ツール(製品1,製品2,製品3)を,獣医学記録の標準化データセットを用いて評価した。
LLM-as-a-judgeフレームワークを用いて、実測精度、完全性、時系列順、臨床関連性、組織という5つの領域で要約を行った。
製品1の平均スコアは4.61点(IQR: 0.73点)で、製品2では2.55点(IQR: 0.78点)、製品3では2.45点(IQR: 0.92点)であった。
また、Factual AccuracyとCronological Orderの完全な中央値も取得した。
グレーティングフレームワーク自体の内部の一貫性を評価するために,我々は3つの独立した実行で評価を繰り返した。
LLMグレーダは高い再現性を示し、平均スコア標準偏差は0.015(製品1)、0.088(製品2)、0.034(製品3)であった。
これらの知見は, 獣医学におけるNLPの要約を評価するために, LLM-as-a-judge評価がスケーラブルで再現可能な方法であることを示す。
関連論文リスト
- LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - Comparative analysis of privacy-preserving open-source LLMs regarding extraction of diagnostic information from clinical CMR imaging reports [0.49998148477760973]
9つのオープンソースのLarge Language Models (LLMs) について, 患者を診断し, 様々な診断カテゴリーに分類する能力について検討した。
GoogleのGemma2モデルは平均F1スコアが0.98で、Qwen2.5:32BとDeepseekR1-32Bはそれぞれ0.96と0.95だった。
論文 参考訳(メタデータ) (2025-05-29T11:25:10Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの5つの大言語モデル(LLM)の分類性能を評価する。
全てのモデルとタスクの組み合わせに対して、95%の信頼区間を有する精度、リコール、F1スコアを報告する。
論文 参考訳(メタデータ) (2025-03-19T12:51:52Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。