論文の概要: InformGen: An AI Copilot for Accurate and Compliant Clinical Research Consent Document Generation
- arxiv url: http://arxiv.org/abs/2504.00934v1
- Date: Tue, 01 Apr 2025 16:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:47.959157
- Title: InformGen: An AI Copilot for Accurate and Compliant Clinical Research Consent Document Generation
- Title(参考訳): InformGen: 正確な臨床研究内容生成のためのAIコパイロット
- Authors: Zifeng Wang, Junyi Gao, Benjamin Danek, Brandon Theodorou, Ruba Shaik, Shivashankar Thati, Seunghyun Won, Jimeng Sun,
- Abstract要約: 提案するインフォームジェネレーションは,ICF(ICF)ドラフト作成のためのLCM駆動型コーパスである。
実験の結果、InformGenはFDAガイドラインから派生した18のコア規制規則にほぼ100%準拠していることが示されている。
手動による介入と統合すると、InformGenは90%以上の事実精度を獲得し、バニラ GPT-4o モデルの 57%-82% をはるかに上回っている。
- 参考スコア(独自算出の注目度): 22.52678425661723
- License:
- Abstract: Leveraging large language models (LLMs) to generate high-stakes documents, such as informed consent forms (ICFs), remains a significant challenge due to the extreme need for regulatory compliance and factual accuracy. Here, we present InformGen, an LLM-driven copilot for accurate and compliant ICF drafting by optimized knowledge document parsing and content generation, with humans in the loop. We further construct a benchmark dataset comprising protocols and ICFs from 900 clinical trials. Experimental results demonstrate that InformGen achieves near 100% compliance with 18 core regulatory rules derived from FDA guidelines, outperforming a vanilla GPT-4o model by up to 30%. Additionally, a user study with five annotators shows that InformGen, when integrated with manual intervention, attains over 90% factual accuracy, significantly surpassing the vanilla GPT-4o model's 57%-82%. Crucially, InformGen ensures traceability by providing inline citations to source protocols, enabling easy verification and maintaining the highest standards of factual integrity.
- Abstract(参考訳): 大規模言語モデル(LLM)を活用して、インフォームドコンセントフォーム(ICF)のような高精細な文書を生成することは、規制の遵守と事実の正確性が極端に必要であるため、依然として大きな課題である。
本稿では,LLM駆動のICFドラフト作成システムであるInformGenについて紹介する。
さらに900の臨床試験のプロトコルとICFからなるベンチマークデータセットを構築した。
実験の結果、InformGenはFDAガイドラインに基づく18のコア規制規則にほぼ100%準拠し、バニラGPT-4oモデルを最大30%上回る結果となった。
さらに、5つのアノテータを用いたユーザスタディでは、手動の介入と統合されたInformGenが90%以上の事実精度を獲得し、バニラGPT-4oモデルの57%-82%を大きく上回っている。
重要な点として、InformGenは、ソースプロトコルにインライン引用を提供することでトレーサビリティを保証する。
関連論文リスト
- Development and Validation of the Provider Documentation Summarization Quality Instrument for Large Language Models [3.0569643495382173]
The Provider Summarization Quality Instrument (PDSQI-9) was developed to evaluate LLM- generated clinical summaries。
検証には、実体的妥当性のためのピアソン相関、因子分析、構造的妥当性のためのクロンバッハのαが含まれていた。
PDSQI-9は強い内部整合性と信頼性を示した。
論文 参考訳(メタデータ) (2025-01-15T17:47:57Z) - Zero-Shot ATC Coding with Large Language Models for Clinical Assessments [40.72273945475456]
解剖学的治療化学符号を処方記録に手動で割り当てることは重大なボトルネックである。
ローカル展開可能な大規模言語モデル(LLM)を用いた実践的アプローチを開発する。
GPT-4oを精度天井とし,プライバシに敏感なデプロイメントに適したオープンソースのLlamaモデルの開発に注力する。
論文 参考訳(メタデータ) (2024-12-10T18:43:02Z) - Unlocking Historical Clinical Trial Data with ALIGN: A Compositional Large Language Model System for Medical Coding [44.01429184037945]
自動ゼロショット医療符号化のための新しい合成LLMシステムであるALIGNを紹介する。
我々は、ALIGNを解剖学的治療化学(ATC)と医学史用語に調和させ、MedDRA(Medicical Dictionary for Regulatory Activity)コードに評価した。
論文 参考訳(メタデータ) (2024-11-20T09:59:12Z) - CK4Gen: A Knowledge Distillation Framework for Generating High-Utility Synthetic Survival Datasets in Healthcare [1.7769033811751995]
CK4Genは、Coxal Proportions(CoxPH)モデルからの知識蒸留を利用して、合成サバイバルデータセットを作成する新しいフレームワークである。
患者リスクプロファイルを個別に維持し、研究と教育のために現実的で信頼性の高いアウトプットを確実にする。
CK4Genは臨床条件にまたがってスケーラブルであり、コードは公開され、将来の研究者はそれを自身のデータセットに適用して、オープンな共有に適した合成バージョンを生成することができる。
論文 参考訳(メタデータ) (2024-10-22T10:20:20Z) - Automated Proof Generation for Rust Code via Self-Evolution [69.25795662658356]
私たちは、Rustコードの自動証明生成を可能にする、人間による証明の欠如を克服する新しいフレームワークであるSAFEを紹介します。
GPT-4oに比べて効率と精度が優れていた。
この進歩により性能が大幅に向上し、人間の専門家によるベンチマークで70.50%の精度が達成された。
論文 参考訳(メタデータ) (2024-10-21T08:15:45Z) - DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data [65.5290035371111]
本稿では,高校・学部レベルの数学競争問題から得られたリーン4証明データを生成する手法を提案する。
この合成データセットでDeepSeekMath 7Bモデルを微調整します。
我々のモデルは、Lean 4 Formalized International Mathematical Olympiad (FIMO)ベンチマークで148の問題を5つ証明しましたが、GPT-4は証明できませんでした。
論文 参考訳(メタデータ) (2024-05-23T09:03:42Z) - Use of a Structured Knowledge Base Enhances Metadata Curation by Large Language Models [2.186740861187042]
メタデータは、データセットの発見可能性、アクセシビリティ、相互運用性、再利用性を保証する上で重要な役割を果たす。
本稿では,メタデータ標準への準拠性を改善するため,大規模言語モデル (LLM) の可能性について検討する。
NCBI BioSampleレポジトリの肺がん関連サンプルを無作為に記録した200データについて実験を行った。
論文 参考訳(メタデータ) (2024-04-08T22:29:53Z) - Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-10-07T23:21:25Z) - Benchmarking and Improving Generator-Validator Consistency of Language
Models [82.73914625520686]
言語モデル(LM)において、解答の生成と検証が一般的である矛盾
最先端のLMであるGPT-4でさえ、GVとの共存率はわずか76%である。
このアプローチはAlpaca-30BのGV一貫性を60%から93%に向上させる。
論文 参考訳(メタデータ) (2023-10-03T07:23:22Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。