論文の概要: Large-scale data extraction from the UNOS organ donor documents
- arxiv url: http://arxiv.org/abs/2308.15752v1
- Date: Wed, 30 Aug 2023 04:29:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 14:54:48.306257
- Title: Large-scale data extraction from the UNOS organ donor documents
- Title(参考訳): UNOS臓器ドナー文書からの大規模データ抽出
- Authors: Marek Rychlik and Bekir Tanriover and Yan Han
- Abstract要約: 対象は2008年以降の米国臓器提供者のUNOSデータである。
このデータは「添付」として知られるPDF文書に記録されているため、過去に大規模な分析はできなかった。
- 参考スコア(独自算出の注目度): 1.9267755321486995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scope of our study is all UNOS data of the USA organ donors since 2008.
The data is not analyzable in a large scale in the past because it was captured
in PDF documents known as "Attachments", whereby every donor is represented by
dozens of PDF documents in heterogenous formats. To make the data analyzable,
one needs to convert the content inside these PDFs to an analyzable data
format, such as a standard SQL database. In this paper we will focus on 2022
UNOS data comprised of $\approx 400,000$ PDF documents spanning millions of
pages. The totality of UNOS data covers 15 years (2008--20022) and our results
will be quickly extended to the entire data. Our method captures a portion of
the data in DCD flowsheets, kidney perfusion data, and data captured during
patient hospital stay (e.g. vital signs, ventilator settings, etc.). The
current paper assumes that the reader is familiar with the content of the UNOS
data. The overview of the types of data and challenges they present is a
subject of another paper. Here we focus on demonstrating that the goal of
building a comprehensive, analyzable database from UNOS documents is an
attainable task, and we provide an overview of our methodology. The project
resulted in datasets by far larger than previously available even in this
preliminary phase.
- Abstract(参考訳): この研究のスコープは、2008年以降の米国臓器提供者のunosデータです。
このデータは「アタッチメント」と呼ばれるPDF文書に記録されており、すべてのドナーは異質なフォーマットで数十のPDF文書で表現されているため、過去には大規模に分析できない。
データを解析可能にするには、PDF内のコンテンツを標準SQLデータベースのような分析可能なデータ形式に変換する必要がある。
本稿では、数百万ページにわたる$\approx 400,000$ PDFドキュメントからなる2022 UNOSデータに焦点を当てる。
UNOSデータの総量は15年(2008-20022)で、その結果はすぐに全データに拡張されます。
本手法では,dcdフローシート,腎灌流データ,患者入院中のデータ(バイタルサイン,人工呼吸器の設定など)にデータの一部をキャプチャする。
現在の論文は、読者がUNOSデータの内容に精通していると仮定している。
データの種類とそれらが提示する課題の概要は、別の論文の主題である。
ここでは,unos文書から包括的かつ分析可能なデータベースを構築するという目標が達成可能なタスクであることを実証することに集中し,その方法論の概要を提供する。
このプロジェクトは、この予備段階でも、以前よりもはるかに大きなデータセットを生み出した。
関連論文リスト
- Unveiling Document Structures with YOLOv5 Layout Detection [0.0]
本研究では,文書レイアウトの迅速同定と非構造化データの抽出を目的とした,最先端コンピュータビジョンモデルYOLOv5の利用について検討する。
主な目的は、文書レイアウトを効果的に認識し、構造化されていないデータを抽出できる自律システムを作ることである。
論文 参考訳(メタデータ) (2023-09-29T07:45:10Z) - An Interactive Interface for Novel Class Discovery in Tabular Data [54.11148718494725]
新規クラスディスカバリー(英: Novel Class Discovery、NCD)とは、異なるクラスがラベル付けされていることを考慮し、ラベル付けされていないセットで新しいクラスを発見しようとする問題である。
現在提案されているNCD法の大部分は画像データにのみ対応している。
このインターフェースにより、ドメインの専門家は表データでNCDのための最先端のアルゴリズムを簡単に実行することができる。
論文 参考訳(メタデータ) (2023-06-22T14:32:53Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including
Structured Full-Text and Citation Network [0.0]
我々は、unarXiveというデータセットの新バージョンを提案する。
得られたデータセットは、複数の分野にまたがる1.9Mの出版物と32年からなる。
データセットに加えて、引用レコメンデーションとIMRaD分類のための準備の整ったトレーニング/テストデータを提供する。
論文 参考訳(メタデータ) (2023-03-27T07:40:59Z) - PLOD: An Abbreviation Detection Dataset for Scientific Documents [8.085950562565893]
PLODは、省略検出と抽出のための大規模なデータセットである。
略語と長い形で自動的に注釈付けされた160k以上のセグメントを含んでいる。
略語や長い形を検出するために,いくつかのベースラインモデルを生成する。
論文 参考訳(メタデータ) (2022-04-26T03:52:21Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - One to Transfer All: A Universal Transfer Framework for Vision
Foundation Model with Few Data [56.14205030170083]
我々は,任意のVFM(Vision Foundation Model)をダウンストリームデータが少ないダウンストリームタスクに転送するためのOTA(Transfer All)を提案する。
OTAは、転送時に上流データ、VFM、下流タスクに依存しない。
大規模な実験により,本手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-11-24T10:10:05Z) - When are Deep Networks really better than Random Forests at small sample
sizes? [2.5556070792288934]
ランダム・フォレスト(RF)とディープ・ネットワーク(DN)は、現在の科学文献で最も人気のある機械学習手法である。
それぞれのアプローチが優れている条件と領域をさらに探求し、確立したいと考えています。
私たちの焦点は、少なくとも1万のサンプルを持つデータセットに焦点を当てています。
論文 参考訳(メタデータ) (2021-08-31T06:33:17Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。
我々はFinTabという中国の標準データセットを公開しています。
今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T07:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。