論文の概要: From Chaos to Clarity: Schema-Constrained AI for Auditable Biomedical Evidence Extraction from Full-Text PDFs
- arxiv url: http://arxiv.org/abs/2601.14267v1
- Date: Wed, 31 Dec 2025 00:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.816789
- Title: From Chaos to Clarity: Schema-Constrained AI for Auditable Biomedical Evidence Extraction from Full-Text PDFs
- Title(参考訳): ChaosからClarityへ:フルテキストPDFからのバイオメディカルエビデンス抽出のためのスキーマ制約AI
- Authors: Pouria Mortezaagha, Joseph Shaw, Bowen Sun, Arya Rahgozar,
- Abstract要約: 既存のドキュメントAIシステムは、OCRエラー、長期文書の断片化、制限されたスループット、ハイテイク合成のための監査性に制限されている。
本稿では,フルテキストのバイオメディカルPDFを構造化された解析可能なレコードに変換する,スキーマ制約付きAI抽出システムを提案する。
- 参考スコア(独自算出の注目度): 2.136797327390818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical evidence synthesis relies on accurate extraction of methodological, laboratory, and outcome variables from full-text research articles, yet these variables are embedded in complex scientific PDFs that make manual abstraction time-consuming and difficult to scale. Existing document AI systems remain limited by OCR errors, long-document fragmentation, constrained throughput, and insufficient auditability for high-stakes synthesis. We present a schema-constrained AI extraction system that transforms full-text biomedical PDFs into structured, analysis-ready records by explicitly restricting model inference through typed schemas, controlled vocabularies, and evidence-gated decisions. Documents are ingested using resume-aware hashing, partitioned into caption-aware page-level chunks, and processed asynchronously under explicit concurrency controls. Chunk-level outputs are deterministically merged into study-level records using conflict-aware consolidation, set-based aggregation, and sentence-level provenance to support traceability and post-hoc audit. Evaluated on a corpus of studies on direct oral anticoagulant level measurement, the pipeline processed all documents without manual intervention, maintained stable throughput under service constraints, and exhibited strong internal consistency across document chunks. Iterative schema refinement substantially improved extraction fidelity for synthesis-critical variables, including assay classification, outcome definitions, follow-up duration, and timing of measurement. These results demonstrate that schema-constrained, provenance-aware extraction enables scalable and auditable transformation of heterogeneous scientific PDFs into structured evidence, aligning modern document AI with the transparency and reliability requirements of biomedical evidence synthesis.
- Abstract(参考訳): バイオメディカルエビデンス合成は、フルテキストの研究論文から方法論、実験室、結果変数の正確な抽出に依存しているが、これらの変数は複雑な科学的PDFに埋め込まれており、手作業による抽象化に時間がかかり、拡張が困難である。
既存のドキュメントAIシステムは、OCRエラー、長期ドキュメントの断片化、スループットの制限、高スループット合成のための監査性に制限されている。
本稿では,全文のバイオメディカルPDFを,型付きスキーマ,制御語彙,エビデンス付き決定によるモデル推論を明示的に制限することにより,構造化された解析可能なレコードに変換する,スキーマ制約付きAI抽出システムを提案する。
ドキュメントは、履歴認識ハッシュを使用して取り込み、キャプション認識のページレベルチャンクに分割し、明示的な並行制御の下で非同期に処理する。
チャンクレベルの出力は、トレーサビリティとポストホック監査をサポートするために、コンフリクト・アウェア・コンソリデーション、セット・ベース・アグリゲーション、文レベルの証明を用いて、決定的に研究レベルのレコードにマージされる。
直接経口抗凝固剤濃度測定のコーパスに基づいて、パイプラインは手動による介入なしに全ての文書を処理し、サービスの制約下で安定したスループットを維持し、文書チャンク全体にわたって強力な内部整合性を示した。
反復的スキーマ改良は、測定分類、結果定義、フォローアップ期間、測定のタイミングなど、合成クリティカル変数の抽出忠実度を大幅に改善した。
これらの結果から,異種科学的PDFのスケーラブルかつ監査可能な構造的エビデンスへの変換を可能にし,最新の文書AIとバイオメディカルエビデンス合成の透明性と信頼性の要件を一致させることが示唆された。
関連論文リスト
- DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - Analise Semantica Automatizada com LLM e RAG para Bulas Farmaceuticas [0.0]
本研究では,大規模言語モデル(LLM)と組み合わせたRAGアーキテクチャを用いて,PDF形式の文書解析を自動化する。
本提案では, 埋め込み, 意味データ抽出, 文脈化自然言語応答の生成によるベクトル探索手法を統合する。
論文 参考訳(メタデータ) (2025-07-07T17:48:15Z) - Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - Unlocking Potential Binders: Multimodal Pretraining DEL-Fusion for Denoising DNA-Encoded Libraries [51.72836644350993]
マルチモーダルプレトレーニング DEL-Fusion Model (MPDF)
我々は,異なる複合表現とそれらのテキスト記述の対比対象を適用した事前学習タスクを開発する。
本稿では, 原子, 分子, 分子レベルでの複合情報をアマルガメートする新しいDEL融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-07T17:32:21Z) - Readability Controllable Biomedical Document Summarization [17.166794984161964]
バイオメディカル文書の可読性制御のための新しいタスクを提案する。
ユーザの可読性要求を認識し、ニーズに合った要約を生成することを目的としている。
論文 参考訳(メタデータ) (2022-10-10T14:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。