論文の概要: Automated Extraction of Pharmacokinetic Parameters from Structured XML Scientific Articles: Enhancing Data Accessibility at Scale
- arxiv url: http://arxiv.org/abs/2604.21063v1
- Date: Wed, 22 Apr 2026 20:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.16762
- Title: Automated Extraction of Pharmacokinetic Parameters from Structured XML Scientific Articles: Enhancing Data Accessibility at Scale
- Title(参考訳): 構造化XML科学論文からの薬物動態パラメータの自動抽出:大規模データのアクセシビリティ向上
- Authors: Remya Ampadi Ramachandran, Lisa A. Tell, Sidharth Rai, Nuwan Millagaha Gedara, Hossein Sholehrasa, Jim E. Riviere, Majid Jaberi-Douraki,
- Abstract要約: 薬理学では、PKデータの集中的、包括的、最新のリポジトリが存在しない。
これは、必要な量的PKパラメータを全て集めるのに、時間がかかり、難しい作業になり得るため、R&Dにとって大きな課題となる。
これにより、テーブルは科学または規制文書の重要な構成要素と情報要素の1つとなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of pharmacology, there is a notable absence of centralized, comprehensive, and up-to-date repositories of PK data. This poses a significant challenge for R&D as it can be a time-consuming and challenging task to collect all the required quantitative PK parameters from diverse scientific publications. This quantitative PK information is predominantly organized in tabular format, mostly available as XML, HTML, or PDF files within various online repositories and scientific publications, including supplementary materials. This makes tables one of the crucial components and information elements of scientific or regulatory documents as they are commonly utilized to present quantitative information. Extracting data from tables is typically a labor-intensive process, and alternative automated machine learning models may struggle to accurately detect and extract the relevant data due to the complex nature and diverse layouts of tabular data. The difficulty of information extraction and reading order detection is largely dependent on the structural complexity of the tables. Efforts to understand tables should prioritize capturing the content of table cells in a manner that aligns with how a human reader naturally comprehends the information. FARAD has been manually extracting tabular data and other information from literature and regulatory agencies for over 40 years. However, there is now an urgent need to automate this process due to the large volume of publications released daily. The accuracy of this task has become increasingly challenging, as manual extraction is tedious and prone to errors, especially given the staffing shortages we are currently facing. This necessitates the development of AI algorithms for table detection and extraction that are able to precisely handle cells organized according to the table structure, as indicated by column and/or row header information.
- Abstract(参考訳): 薬理学の分野では、PKデータの集中的、包括的、最新のリポジトリが欠如している。
これはR&Dにとって重要な課題であり、様々な科学的出版物から必要な量的PKパラメータをすべて収集するのに時間がかかり、難しい課題である。
この定量的PK情報は、主に表形式で整理され、主にXML、HTML、PDFファイルとして様々なオンラインリポジトリや、補足資料を含む科学出版物で利用可能である。
これにより、テーブルは科学的または規制的な文書の重要な構成要素と情報要素の1つとなり、定量情報の提示に一般的に使用される。
テーブルからデータを抽出することは、通常、労働集約的なプロセスであり、別の機械学習モデルでは、複雑な性質と多彩な表データのレイアウトのために、関連するデータを正確に検出し、抽出するのに苦労する場合がある。
情報抽出と読み出し順序検出の難しさは、表の構造的複雑さに大きく依存する。
テーブルを理解するための努力は、人間が自然に情報を理解する方法と整合して、テーブルセルの内容を取得することを優先すべきである。
FARADは40年以上にわたって、文献や規制機関から文書データやその他の情報を手作業で抽出してきた。
しかし、毎日大量の出版物が発行されているため、このプロセスを自動化する必要がある。
手作業による抽出が面倒で,特に現在直面している人員不足を考えると,このタスクの正確性はますます難しくなっている。
これは、列や行のヘッダ情報によって示されるように、テーブル構造に従って組織されたセルを正確に処理できるテーブル検出と抽出のためのAIアルゴリズムの開発を必要とする。
関連論文リスト
- TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - Beyond Extraction: Contextualising Tabular Data for Efficient
Summarisation by Language Models [0.0]
Retrieval-Augmented Generation アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。
本研究では,RAGに基づくシステムにおいて,複雑なテーブルクエリの精度を高めるための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-04T16:16:14Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - DiSCoMaT: Distantly Supervised Composition Extraction from Tables in
Materials Science Articles [25.907266860321727]
材料科学論文の表から素材の組成を抽出する新しいNLPタスクを定義する。
遠隔操作型テーブル4,408、手動で注釈付けされた開発およびテストテーブル1,475からなるトレーニングデータセットをリリースする。
DisCOMATは最近のテーブル処理アーキテクチャよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-07-03T17:11:17Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。