論文の概要: Ambient AI Scribing Support: Comparing the Performance of Specialized AI Agentic Architecture to Leading Foundational Models
- arxiv url: http://arxiv.org/abs/2411.06713v1
- Date: Mon, 11 Nov 2024 04:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:46.318951
- Title: Ambient AI Scribing Support: Comparing the Performance of Specialized AI Agentic Architecture to Leading Foundational Models
- Title(参考訳): Ambient AI Scribingのサポート: 専門化されたAIエージェントアーキテクチャのパフォーマンスと基礎モデルの比較
- Authors: Chanseo Lee, Sonu Kumar, Kimon A. Vogt, Sam Meraj,
- Abstract要約: Sporo HealthのAI Scribeは、医療用スクラブ用に微調整されたプロプライエタリなモデルである。
臨床医が提供したSOAPノートを基礎的事実として, パートナー診療所の非特定患者記録を分析した。
スポロは全てのモデルに勝り、最高リコール(73.3%)、精度(78.6%)、F1スコア(75.3%)を最低パフォーマンス差で達成した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study compares Sporo Health's AI Scribe, a proprietary model fine-tuned for medical scribing, with various LLMs (GPT-4o, GPT-3.5, Gemma-9B, and Llama-3.2-3B) in clinical documentation. We analyzed de-identified patient transcripts from partner clinics, using clinician-provided SOAP notes as the ground truth. Each model generated SOAP summaries using zero-shot prompting, with performance assessed via recall, precision, and F1 scores. Sporo outperformed all models, achieving the highest recall (73.3%), precision (78.6%), and F1 score (75.3%) with the lowest performance variance. Statistically significant differences (p < 0.05) were found between Sporo and the other models, with post-hoc tests showing significant improvements over GPT-3.5, Gemma-9B, and Llama 3.2-3B. While Sporo outperformed GPT-4o by up to 10%, the difference was not statistically significant (p = 0.25). Clinical user satisfaction, measured with a modified PDQI-9 inventory, favored Sporo. Evaluations indicated Sporo's outputs were more accurate and relevant. This highlights the potential of Sporo's multi-agentic architecture to improve clinical workflows.
- Abstract(参考訳): この研究は、医療用スクラブ用に微調整されたSporo HealthのAI Scribeと、臨床文書中の様々なLCM(GPT-4o、GPT-3.5、Gemma-9B、Llama-3.2-3B)を比較した。
臨床医が提供したSOAPノートを基礎的事実として, パートナー診療所の非特定患者記録を分析した。
各モデルはゼロショットプロンプトを使用してSOAPサマリーを生成し、リコール、精度、F1スコアを通じてパフォーマンスを評価した。
スポロは全てのモデルに勝り、最高リコール(73.3%)、精度(78.6%)、F1スコア(75.3%)を最低パフォーマンス差で達成した。
統計学的に有意な差(p < 0.05)がスポロと他のモデルの間で見られ、ポストホック試験ではGPT-3.5、Gemma-9B、Llama 3.2-3Bよりも大幅に改善された。
SporoはGPT-4oを10%向上させたが、その差は統計的に有意ではなかった(p = 0.25)。
PDQI-9を改良したスポロで測定した臨床ユーザ満足度は好意的であった。
評価の結果、スポロの出力はより正確で関連性が高いことが示された。
これは、臨床ワークフローを改善するスポロのマルチエージェントアーキテクチャの可能性を強調している。
関連論文リスト
- A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - CACER: Clinical Concept Annotations for Cancer Events and Relations [22.866006682711284]
本研究は,48,000件以上の医学的問題と薬物イベントに対する微粒な注釈付き新規コーパスCACERについて紹介する。
微調整および文脈内学習を用いたトランスフォーマーに基づく情報抽出モデルの開発と評価を行う。
論文 参考訳(メタデータ) (2024-09-05T20:42:35Z) - Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z) - Using LLMs to label medical papers according to the CIViC evidence model [0.0]
医学NLP分野におけるシーケンス分類問題CIViCエビデンスについて紹介する。
CIViCエビデンスデータセット上でBERTとRoBERTaの事前学習チェックポイントを微調整する。
上記のBERTライクなモデルとOpenAIのGPT-4を数ショットで比較する。
論文 参考訳(メタデータ) (2024-07-05T12:30:01Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks [0.7071166713283337]
私たちは機械学習モデルをトレーニングするのに十分な規模のデータセットを作成しました。
私たちのゴールは自閉症の基準に対応する行動のラベル付けです。
データの増大はリコールを13%増加させたが、精度は16%低下した。
論文 参考訳(メタデータ) (2024-05-08T03:18:12Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Large Language Models to Identify Social Determinants of Health in
Electronic Health Records [2.168737004368243]
健康の社会的決定因子(SDoH)は、患者の結果に重要な影響を与えるが、電子健康記録(EHR)から不完全に収集される。
本研究では,EHRにおける自由テキストからSDoHを抽出する大規模言語モデルについて検討した。
800の患者ノートをSDoHカテゴリーにアノテートし,いくつかのトランスフォーマーモデルを評価した。
論文 参考訳(メタデータ) (2023-08-11T19:18:35Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。