論文の概要: Human-AI Collaboration Increases Efficiency in Regulatory Writing
- arxiv url: http://arxiv.org/abs/2509.09738v1
- Date: Wed, 10 Sep 2025 18:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.871674
- Title: Human-AI Collaboration Increases Efficiency in Regulatory Writing
- Title(参考訳): 人間とAIのコラボレーションは規則書記の効率を向上する
- Authors: Umut Eser, Yael Gozin, L. Jay Stallons, Ari Caroline, Martin Preusse, Brandon Rice, Scott Wright, Andrew Robertson,
- Abstract要約: 大規模言語モデル(LLM)プラットフォーム(AutoIND)は、規制出願の文書品質を維持しながら、最初のドラフト構成時間を短縮することができる。
AutoINDは最初の起草時間を$sim$97%削減した(IND-1では$sim$100hから3.7h、18,870ページ/61レポート、IND-2では2.6h、IND-2では11,425ページ/58レポート)。
重大な規制上の誤りは検出されなかったが, 強調, 簡潔さ, 明瞭さの欠如が指摘された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Investigational New Drug (IND) application preparation is time-intensive and expertise-dependent, slowing early clinical development. Objective: To evaluate whether a large language model (LLM) platform (AutoIND) can reduce first-draft composition time while maintaining document quality in regulatory submissions. Methods: Drafting times for IND nonclinical written summaries (eCTD modules 2.6.2, 2.6.4, 2.6.6) generated by AutoIND were directly recorded. For comparison, manual drafting times for IND summaries previously cleared by the U.S. FDA were estimated from the experience of regulatory writers ($\geq$6 years) and used as industry-standard benchmarks. Quality was assessed by a blinded regulatory writing assessor using seven pre-specified categories: correctness, completeness, conciseness, consistency, clarity, redundancy, and emphasis. Each sub-criterion was scored 0-3 and normalized to a percentage. A critical regulatory error was defined as any misrepresentation or omission likely to alter regulatory interpretation (e.g., incorrect NOAEL, omission of mandatory GLP dose-formulation analysis). Results: AutoIND reduced initial drafting time by $\sim$97% (from $\sim$100 h to 3.7 h for 18,870 pages/61 reports in IND-1; and to 2.6 h for 11,425 pages/58 reports in IND-2). Quality scores were 69.6\% and 77.9\% for IND-1 and IND-2. No critical regulatory errors were detected, but deficiencies in emphasis, conciseness, and clarity were noted. Conclusions: AutoIND can dramatically accelerate IND drafting, but expert regulatory writers remain essential to mature outputs to submission-ready quality. Systematic deficiencies identified provide a roadmap for targeted model improvements.
- Abstract(参考訳): 背景: 調査新薬(IND)適用準備は、時間集約的で専門性に依存し、早期臨床開発を遅らせる。
目的: 大規模言語モデル (LLM) プラットフォーム (AutoIND) が,規制出願における文書品質を維持しつつ,第1ドラフト構成時間を短縮できるかどうかを評価する。
方法:AutoINDが生成したIND非クリニカルな要約(eCTDモジュール 2.6.2, 2.6.4, 2.6.6)の描画時間を直接記録した。
比較として、米国FDAが以前クリアしたINDサマリーのマニュアル起草時間は、規制作家の経験($6)から推定され、業界標準ベンチマークとして使用された。
品質は, 正当性, 完全性, 簡潔性, 一貫性, 明瞭性, 冗長性, 強調の7つのカテゴリーを用いて, 盲目な規制書記評価器によって評価された。
各サブ基準は0-3であり、正規化されている。
臨界規制誤差は, 規則解釈を変える可能性のある誤表現や省略(例えば, 誤ったNOAEL, 必須GLP線量式解析の省略)として定義された。
結果: AutoINDは最初の起草時間を$\sim$97%削減した(IND-1では$\sim$100 hから3.7 h、IND-1では18,870ページ/61レポート、IND-2では2.6 h、IND-2では11,425ページ/58レポート)。
品質スコアは 69.6\% と 77.9\% の IND-1 と IND-2 である。
重大な規制上の誤りは検出されなかったが, 強調, 簡潔さ, 明瞭さの欠如が指摘された。
結論: AutoIND は IND の草案作成を劇的に加速させるが、専門家の規制担当者は、提出可能な品質に成熟したアウトプットに不可欠である。
同定された体系的な欠陥は、ターゲットモデルの改善のためのロードマップを提供する。
関連論文リスト
- Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models [60.59215206182471]
ProActive Self-Refinement (PASR) は、大規模言語モデルが生成プロセス中に出力を洗練できるようにする新しい手法である。
PASRの有効性を評価するために,多種多様な10のタスクについて広範囲に実験を行った。
Qwen3-8Bでは、PASRは標準的な世代に比べて平均トークン消費量を41.6%削減し、精度は8.2%向上した。
論文 参考訳(メタデータ) (2025-08-18T13:07:21Z) - AI Agents-as-Judge: Automated Assessment of Accuracy, Consistency, Completeness and Clarity for Enterprise Documents [0.0]
本研究では,AIエージェントを用いた高度に構造化された企業文書の自動レビューのためのモジュール型マルチエージェントシステムを提案する。
LangChain、CrewAI、TruLens、Guidanceといった現代的なオーケストレーションツールを使用して、文書のセクション単位での評価を可能にする。
99%の情報一貫性(人間の場合は92%)を実現し、エラーとバイアス率を半減させ、1文書あたりの平均レビュー時間を30分から2.5分に短縮する。
論文 参考訳(メタデータ) (2025-06-23T17:46:15Z) - Unblocking Fine-Grained Evaluation of Detailed Captions: An Explaining AutoRater and Critic-and-Revise Pipeline [58.832237984587664]
VNLI-Critiqueは,自動文レベルの事実性分類と批判生成のためのモデルである。
1) VNLI-CritiqueはM-HalDetectベンチマークの最先端性能によって検証された堅牢な一般化を実証し、(2) VNLI-CritiqueによるDOCCI-Critique向けAutoRaterは信頼性の高いVLMランキングを提供し、人間の事実性判断と優れた整合性を示す。
論文 参考訳(メタデータ) (2025-06-09T10:57:26Z) - Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets [0.0]
汎用ユースケースの回帰テストを実行するベンチマークであるGPR-benchを紹介する。
より新しいモデルは一般的に正確性を改善するが、違いは控えめで統計的に有意ではない。
対照的に、簡潔な命令は簡潔さを著しく向上させ、迅速なエンジニアリングの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-02T12:31:43Z) - Classification or Prompting: A Case Study on Legal Requirements Traceability [4.629156733452248]
法的要件のトレーサビリティは、エンジニアがターゲットのアーティファクトに対する技術的要件を分析するための重要なタスクである。
本稿では,言語モデルに基づく2つの自動解について検討する。
最初のソリューションであるKashifは、文変換器と意味的類似性を利用する分類器である。
第2のソリューションであるRICE_LRTは、プロンプトエンジニアリングフレームワークであるRICEをベースにした、最近のジェネレーティブLLMを誘導する。
論文 参考訳(メタデータ) (2025-02-07T13:33:40Z) - Streamlining Systematic Reviews: A Novel Application of Large Language Models [1.921297555859566]
体系的レビュー(SR)はエビデンスに基づくガイドラインに不可欠であるが、しばしば文学スクリーニングの時間的な性質によって制限される。
そこで本研究では,大言語モデル(LLM)をベースとした社内システムを提案し,その性能評価を行った。
論文 参考訳(メタデータ) (2024-12-14T17:08:34Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。