論文の概要: TabText: Language-Based Representations of Tabular Health Data for Predictive Modelling
- arxiv url: http://arxiv.org/abs/2206.10381v5
- Date: Fri, 26 Sep 2025 22:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.612377
- Title: TabText: Language-Based Representations of Tabular Health Data for Predictive Modelling
- Title(参考訳): TabText:予測モデリングのためのタブラルヘルスデータの言語ベース表現
- Authors: Kimberly Villalobos Carballo, Liangyuan Na, Yu Ma, Léonard Boussioux, Cynthia Zeng, Luis R. Soenksen, Dimitris Bertsimas,
- Abstract要約: 本稿では,前処理および特徴抽出手法であるTabTextを紹介する。
メソッドはテーブルを文脈言語に変換する。
タスク非依存の数値表現を生成するために、事前訓練された大きな言語モデルを適用する。
これらの固定埋め込みは、様々な予測タスクの入力として使用される。
- 参考スコア(独自算出の注目度): 5.242425869856329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular medical records remain the most readily available data format for applying machine learning in healthcare. However, traditional data preprocessing ignores valuable contextual information in tables and requires substantial manual cleaning and harmonisation, creating a bottleneck for model development. We introduce TabText, a preprocessing and feature extraction method that leverages contextual information and streamlines the curation of tabular medical data. This method converts tables into contextual language and applies pretrained large language models (LLMs) to generate task-independent numerical representations. These fixed embeddings are then used as input for various predictive tasks. TabText was evaluated on nine inpatient flow prediction tasks (e.g., ICU admission, discharge, mortality) using electronic medical records across six hospitals from a US health system, and on nine publicly available datasets from the UCI Machine Learning Repository, covering tasks such as cancer diagnosis, recurrence, and survival. TabText models trained on unprocessed data from a single hospital (572,964 patient-days, Jan 2018-Dec 2020) achieved accurate performance (AUC 0.75-0.94) when tested prospectively on 265,917 patient-days from Jan 2021-Apr 2022, and generalised well to five additional hospitals not used for training. When augmenting preprocessed tabular records with these contextual embeddings, out-of-sample AUC improved by up to 4 additive percentage points in challenging tasks such as ICU transfer and breast cancer recurrence, while providing little to no benefit for already high-performing tasks. Findings were consistent across both private and public datasets.
- Abstract(参考訳): タブラル医療記録は、医療に機械学習を適用する上で、最も容易に利用できるデータフォーマットである。
しかし、従来のデータ前処理は、テーブル内の貴重なコンテキスト情報を無視し、相当な手作業によるクリーニングと調和を必要とし、モデル開発のボトルネックを生み出します。
本研究では,コンテキスト情報を活用する前処理および特徴抽出手法であるTabTextを導入し,表型医療データのキュレーションを効率化する。
テーブルを文脈言語に変換し、事前訓練された大規模言語モデル(LLM)を適用してタスク非依存の数値表現を生成する。
これらの固定埋め込みは、様々な予測タスクの入力として使用される。
TabTextは、米国の医療システムから6つの病院にまたがる電子カルテを用いて、9つの入院フロー予測タスク(例えば、ICU入院、退院、死亡)と、がん診断、再発、生存などのタスクをカバーするUCI機械学習リポジトリから公開されている9つのデータセットで評価された。
1つの病院(2018年1月~2020年1月)の未処理データに基づいてトレーニングされたTabTextモデルは、1月2021年4月2022年1月から265,917人の患者日に前向きに検査を行い、訓練に使用されていない5つの病院に最適化された。
これらの文脈埋め込みによって前処理した表状レコードを増大させると、AUCはICU転送や乳がん再発といった課題において最大4つの追加的なポイントを向上し、既に高いパフォーマンスのタスクにはほとんど恩恵を与えなかった。
発見はプライベートデータセットとパブリックデータセットの両方で一貫していた。
関連論文リスト
- Patient-level Information Extraction by Consistent Integration of Textual and Tabular Evidence with Bayesian Networks [4.993537302467224]
本稿では,専門家インフォームドベイズネットワークを用いたマルチモーダル患者レベルの情報抽出手法を提案する。
本稿では,モデルの予測を解釈可能かつ確率的に融合させるために,一貫性ノードを付加した仮想エビデンスを提案する。
提案手法の有効性をSimSUMデータセットに示す。
論文 参考訳(メタデータ) (2025-11-21T08:59:42Z) - Paging Dr. GPT: Extracting Information from Clinical Notes to Enhance Patient Predictions [0.25165775267615204]
GPT-4o-mini (ChatGPT) による患者に対する簡単な臨床質問に対する回答が患者レベルの死亡予測にどう役立つかを検討する。
MIMIC-IV Noteデータセットにおける14,011件の初診データや心血管集中治療ユニットのデータを用いて,GPT応答をロジスティック回帰モデルにおける入力特徴として用いた透明なフレームワークを実装した。
論文 参考訳(メタデータ) (2025-04-14T17:41:45Z) - Theme-Explanation Structure for Table Summarization using Large Language Models: A Case Study on Korean Tabular Data [1.0621665950143144]
現在の表要約法は、人間に優しい出力の重要な側面を無視することが多い。
本稿では,Theme-Explanation Structure-based Table Summarization (Tabular-TX) パイプラインを紹介する。
論文 参考訳(メタデータ) (2025-01-17T08:42:49Z) - PORTAL: Scalable Tabular Foundation Models via Content-Specific Tokenization [7.036380633387952]
我々は、クリーニングや前処理を必要とせずに、様々なデータモダリティを処理するフレームワーク、 Portal(Pretraining One-Row-at-a-Time for All tabLes)を紹介します。
オンラインにコンパイルされたデータセットで効果的に事前トレーニングされ、複雑な分類と回帰タスクに関する最先端の手法に適合するように微調整される。
論文 参考訳(メタデータ) (2024-10-17T13:05:44Z) - UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - PixT3: Pixel-based Table-To-Text Generation [66.96636025277536]
本稿では,線形化と入力サイズ制限の課題を克服するマルチモーダルテーブル・トゥ・テキスト・モデルPixT3を提案する。
ToTToとLogic2Textベンチマークの実験では、PixT3はテキストのみで動作するジェネレータよりも競争力があり、優れていることが示されている。
論文 参考訳(メタデータ) (2023-11-16T11:32:47Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - MediTab: Scaling Medical Tabular Data Predictors via Data Consolidation, Enrichment, and Refinement [44.693325083735424]
患者の健康リスク予測などの医療応用において,タブラルデータ予測が採用されている。
以前の予測子は、手動でキュレートされた小さなデータセットでトレーニングされることが多い。
論文 参考訳(メタデータ) (2023-05-20T03:37:09Z) - Towards Table-to-Text Generation with Pretrained Language Model: A Table
Structure Understanding and Text Deliberating Approach [60.03002572791552]
本稿では,テーブル構造理解とテキスト検討手法,すなわちTASDを提案する。
具体的には,表構造を考慮したテキスト生成モデルを実現するために,三層多層アテンションネットワークを考案する。
われわれのアプローチは、様々な種類のテーブルに対して忠実で流動的な記述テキストを生成することができる。
論文 参考訳(メタデータ) (2023-01-05T14:03:26Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z) - Summarizing Patients Problems from Hospital Progress Notes Using
Pre-trained Sequence-to-Sequence Models [9.879960506853145]
問題リストの要約には、臨床文書を理解し、抽象化し、生成するモデルが必要である。
当科では,入院時に提供者の進捗記録からの入力を用いて,患者の日常診療計画における問題点のリストを作成することを目的とした,新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2022-08-17T17:07:35Z) - Unsupervised Pre-Training on Patient Population Graphs for Patient-Level
Predictions [48.02011627390706]
プレトレーニングは、コンピュータビジョン(CV)、自然言語処理(NLP)、医療画像など、機械学習のさまざまな分野で成功している。
本稿では,患者結果の予測のために,教師なし事前学習を異種マルチモーダルEHRデータに適用する。
提案手法は,人口レベルでのデータモデリングに有効であることがわかった。
論文 参考訳(メタデータ) (2022-03-23T17:59:45Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - BI-RADS BERT & Using Section Tokenization to Understand Radiology
Reports [0.18352113484137625]
ドメイン固有の文脈単語の埋め込みは、医学におけるそのような自然言語処理タスクにおいて印象的な精度を達成することが示されている。
BERTモデルは、胸部X線検査で事前訓練され、部分トークン化と組み合わせて、全野抽出の95.9%の精度が得られた。
論文 参考訳(メタデータ) (2021-10-14T17:25:49Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - Learning Better Representation for Tables by Self-Supervised Tasks [23.69766883380125]
本稿では,表表現の学習を支援するために,数値順序付けと有意順序付けという2つの自己教師型タスクを提案する。
本手法はNBAゲーム統計と関連ニュースからなるROTOWIREを用いて検証する。
論文 参考訳(メタデータ) (2020-10-15T09:03:38Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。