論文の概要: AI-Generated Prior Authorization Letters: Strong Clinical Content, Weak Administrative Scaffolding
- arxiv url: http://arxiv.org/abs/2603.29366v1
- Date: Tue, 31 Mar 2026 07:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.257168
- Title: AI-Generated Prior Authorization Letters: Strong Clinical Content, Weak Administrative Scaffolding
- Title(参考訳): AIが作成した事前認可書:強い臨床内容、弱みの行政的苦境
- Authors: Moiz Sadiq Awan, Maryam Raza,
- Abstract要約: 大規模言語モデルは、臨床テキストタスクにまたがる有望性を示しているが、提出可能な事前承認書を作成できる能力は、限られた関心しか寄せられていない。
慢性関節リウマチ, 精神科, 腫瘍学, 心臓科, 整形外科を対象とし, 医師公認の45症例を対象に, 市販のLCMを3例検討した。
3つのモデルはいずれも、正確な診断、十分に構造化された医学的必要条件の議論、徹底的な段階的治療の文書など、強力な臨床内容の文字を生成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior authorization remains one of the most burdensome administrative processes in U.S. healthcare, consuming billions of dollars and thousands of physician hours each year. While large language models have shown promise across clinical text tasks, their ability to produce submission-ready prior authorization letters has received only limited attention, with existing work confined to single-case demonstrations rather than structured multi-scenario evaluation. We assessed three commercially available LLMs (GPT-4o, Claude Sonnet 4.5, and Gemini 2.5 Pro) across 45 physician-validated synthetic scenarios spanning rheumatology, psychiatry, oncology, cardiology, and orthopedics. All three models generated letters with strong clinical content: accurate diagnoses, well-structured medical necessity arguments, and thorough step therapy documentation. However, a secondary analysis of real-world administrative requirements revealed consistent gaps that clinical scoring alone did not capture, including absent billing codes, missing authorization duration requests, and inadequate follow-up plans. These findings reframe the question: the challenge for clinical deployment is not whether LLMs can write clinically adequate letters, but whether the systems built around them can supply the administrative precision that payer workflows require.
- Abstract(参考訳): 事前認可は、米国の医療において最も負担のかかる管理プロセスの1つであり、年間数十億ドルと数千人の医師の時間を消費している。
大規模言語モデルは、臨床テキストタスク間での約束を示す一方で、提出可能な事前承認書を作成できる能力は限定的であり、既存の作業は構造化されたマルチシナリオ評価よりもシングルケースのデモンストレーションに限られている。
関節リウマチ, 精神医学, 腫瘍学, 心臓科, 整形外科の45症例を対象に, 市販LCM(GPT-4o, Claude Sonnet 4.5, Gemini 2.5 Pro)について検討した。
3つのモデルはいずれも、正確な診断、十分に構造化された医学的必要条件の議論、徹底的な段階的治療の文書など、強力な臨床内容の文字を生成した。
しかし、現実の行政要件を二次的に分析した結果、請求書の欠落、承認期間の要求の欠如、追跡計画の不十分など、臨床検査だけでは捉えられなかった一貫したギャップが明らかとなった。
臨床展開の課題は、LSMが臨床的に適切な文字を書けるかどうかではなく、その周辺に構築されたシステムが、有料のワークフローに必要な管理精度を供給できるかどうかである。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - DocCHA: Towards LLM-Augmented Interactive Online diagnosis System [17.975659876934895]
DocCHAは、診断プロセスを3段階に分解することで臨床推論をエミュレートする、信頼性に配慮したモジュラーなフレームワークである。
実世界の中国のコンサルティングデータセットを2つ評価した。
論文 参考訳(メタデータ) (2025-07-10T15:52:04Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Using LLM for Real-Time Transcription and Summarization of Doctor-Patient Interactions into ePuskesmas in Indonesia: A Proof-of-Concept Study [0.5735035463793009]
本稿では,大規模言語モデル(LLM)を用いて,インドネシアにおける医師と患者との会話のリアルタイムの書き起こしと要約を自動化する概念実証フレームワークを提案する。
本システムは,ePuskesmasフォームを自動生成するブラウザエクステンションとして実装された医用要約用GPT-3.5とWhisperモデルを組み合わせた。
論文 参考訳(メタデータ) (2024-09-25T16:13:42Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation [19.08691249610632]
本研究では,オープンソースのLLaMA-213億パラメータモデルに対する包括的ドメイン・タスク特化プロセスを提案する。
我々のプロセスには、AIと人間のフィードバックの両方から、継続的な事前トレーニング、教師付き微調整、強化学習が組み込まれています。
得られたLLaMA-Clinicは,医師が作成したものと同等の精度で臨床記録を作成できる。
論文 参考訳(メタデータ) (2024-04-25T15:34:53Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。