論文の概要: Large-scale data extraction from the UNOS organ donor documents
- arxiv url: http://arxiv.org/abs/2308.15752v3
- Date: Fri, 5 Jan 2024 01:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 18:18:43.783646
- Title: Large-scale data extraction from the UNOS organ donor documents
- Title(参考訳): UNOS臓器ドナー文書からの大規模データ抽出
- Authors: Marek Rychlik and Bekir Tanriover and Yan Han
- Abstract要約: 2008年以降の米国臓器提供者の臓器調達・移植ネットワーク(OPTN)データについて検討した。
データを分析可能にするには、これらのPDF内のコンテンツを分析可能なデータ形式に変換する必要がある。
本稿では,数百万ページにわたる$approx 400,000$ PDFドキュメントからなる2022 OPTNデータに焦点を当てる。
- 参考スコア(独自算出の注目度): 1.9267755321486995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we focus on three major task: 1) discussing our methods: Our
method captures a portion of the data in DCD flowsheets, kidney perfusion data,
and Flowsheet data captured peri-organ recovery surgery. 2) demonstrating the
result: We built a comprehensive, analyzable database from 2022 OPTN data. This
dataset is by far larger than any previously available even in this preliminary
phase; and 3) proving that our methods can be extended to all the past OPTN
data and future data.
The scope of our study is all Organ Procurement and Transplantation Network
(OPTN) data of the USA organ donors since 2008. The data was not analyzable in
a large scale in the past because it was captured in PDF documents known as
``Attachments'', whereby every donor's information was recorded into dozens of
PDF documents in heterogeneous formats. To make the data analyzable, one needs
to convert the content inside these PDFs to an analyzable data format, such as
a standard SQL database. In this paper we will focus on 2022 OPTN data, which
consists of $\approx 400,000$ PDF documents spanning millions of pages. The
entire OPTN data covers 15 years (2008--20022). This paper assumes that readers
are familiar with the content of the OPTN data.
- Abstract(参考訳): 本稿では,3つの課題に焦点を当てる。
1) 本手法は, DCDフローシート, 腎灌流データ, および組織周囲の回収手術で得られたフローシートデータの一部をキャプチャする。
2) 結果の実証: 2022 optnデータから総合的な分析可能なデータベースを構築しました。
このデータセットは、この予備段階においてさえ、以前利用可能なデータセットよりもはるかに大きい。
3)過去のOPTNデータと将来のデータにメソッドを拡張できることを証明する。
本研究のスコープは,2008年以降の米国臓器提供者の臓器調達・移植ネットワーク(optn)データである。
データは「`Attachments''」と呼ばれるPDF文書に記録されていたため、過去に大規模な解析は行われず、全てのドナーの情報は異質なフォーマットで数十のPDF文書に記録された。
データを解析可能にするには、PDF内のコンテンツを標準SQLデータベースのような分析可能なデータ形式に変換する必要がある。
本稿では、数百万ページにわたる$\approx 400,000$ PDFドキュメントからなる2022 OPTNデータに焦点を当てる。
OPTNのデータ全体が15年(2008-20022)をカバーしている。
本稿では,読者がOPTNデータの内容に精通していると仮定する。
関連論文リスト
- Unveiling Document Structures with YOLOv5 Layout Detection [0.0]
本研究では,文書レイアウトの迅速同定と非構造化データの抽出を目的とした,最先端コンピュータビジョンモデルYOLOv5の利用について検討する。
主な目的は、文書レイアウトを効果的に認識し、構造化されていないデータを抽出できる自律システムを作ることである。
論文 参考訳(メタデータ) (2023-09-29T07:45:10Z) - An Interactive Interface for Novel Class Discovery in Tabular Data [54.11148718494725]
新規クラスディスカバリー(英: Novel Class Discovery、NCD)とは、異なるクラスがラベル付けされていることを考慮し、ラベル付けされていないセットで新しいクラスを発見しようとする問題である。
現在提案されているNCD法の大部分は画像データにのみ対応している。
このインターフェースにより、ドメインの専門家は表データでNCDのための最先端のアルゴリズムを簡単に実行することができる。
論文 参考訳(メタデータ) (2023-06-22T14:32:53Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including
Structured Full-Text and Citation Network [0.0]
我々は、unarXiveというデータセットの新バージョンを提案する。
得られたデータセットは、複数の分野にまたがる1.9Mの出版物と32年からなる。
データセットに加えて、引用レコメンデーションとIMRaD分類のための準備の整ったトレーニング/テストデータを提供する。
論文 参考訳(メタデータ) (2023-03-27T07:40:59Z) - PLOD: An Abbreviation Detection Dataset for Scientific Documents [8.085950562565893]
PLODは、省略検出と抽出のための大規模なデータセットである。
略語と長い形で自動的に注釈付けされた160k以上のセグメントを含んでいる。
略語や長い形を検出するために,いくつかのベースラインモデルを生成する。
論文 参考訳(メタデータ) (2022-04-26T03:52:21Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - One to Transfer All: A Universal Transfer Framework for Vision
Foundation Model with Few Data [56.14205030170083]
我々は,任意のVFM(Vision Foundation Model)をダウンストリームデータが少ないダウンストリームタスクに転送するためのOTA(Transfer All)を提案する。
OTAは、転送時に上流データ、VFM、下流タスクに依存しない。
大規模な実験により,本手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-11-24T10:10:05Z) - When are Deep Networks really better than Random Forests at small sample
sizes? [2.5556070792288934]
ランダム・フォレスト(RF)とディープ・ネットワーク(DN)は、現在の科学文献で最も人気のある機械学習手法である。
それぞれのアプローチが優れている条件と領域をさらに探求し、確立したいと考えています。
私たちの焦点は、少なくとも1万のサンプルを持つデータセットに焦点を当てています。
論文 参考訳(メタデータ) (2021-08-31T06:33:17Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。
我々はFinTabという中国の標準データセットを公開しています。
今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T07:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。