論文の概要: PMOA-TTS: Introducing the PubMed Open Access Textual Times Series Corpus
- arxiv url: http://arxiv.org/abs/2505.20323v1
- Date: Fri, 23 May 2025 18:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.170109
- Title: PMOA-TTS: Introducing the PubMed Open Access Textual Times Series Corpus
- Title(参考訳): PMOA-TTS:PubMed Open Access Textual Times Series Corpusの紹介
- Authors: Shahriar Noroozizadeh, Sayantan Kumar, George H. Chen, Jeremy C. Weiss,
- Abstract要約: PMOA-TTSは124,699の注釈付きPubMed Open Accessケースレポートの最初の公開データセットである。
Llama 3.3にフィルターを併用し, 単発症例の報告を同定し, 即時抽出を行った。
タイムラインの質を評価するために,3つの指標を用いてクリニカル・カレード・リファレンス・セットに対して評価を行った。
- 参考スコア(独自算出の注目度): 9.924632472835551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding temporal dynamics in clinical narratives is essential for modeling patient trajectories, yet large-scale temporally annotated resources remain limited. We present PMOA-TTS, the first openly available dataset of 124,699 PubMed Open Access (PMOA) case reports, each converted into structured (event, time) timelines via a scalable LLM-based pipeline. Our approach combines heuristic filtering with Llama 3.3 to identify single-patient case reports, followed by prompt-driven extraction using Llama 3.3 and DeepSeek R1, resulting in over 5.6 million timestamped clinical events. To assess timeline quality, we evaluate against a clinician-curated reference set using three metrics: (i) event-level matching (80% match at a cosine similarity threshold of 0.1), (ii) temporal concordance (c-index > 0.90), and (iii) Area Under the Log-Time CDF (AULTC) for timestamp alignment. Corpus-level analysis shows wide diagnostic and demographic coverage. In a downstream survival prediction task, embeddings from extracted timelines achieve time-dependent concordance indices up to 0.82 $\pm$ 0.01, demonstrating the predictive value of temporally structured narratives. PMOA-TTS provides a scalable foundation for timeline extraction, temporal reasoning, and longitudinal modeling in biomedical NLP. The dataset is available at: https://huggingface.co/datasets/snoroozi/pmoa-tts .
- Abstract(参考訳): 臨床物語の時間的ダイナミクスを理解することは患者の軌跡をモデル化するのに不可欠であるが、大規模な時間的注釈付き資源は限られている。
PMOA-TTSは124,699 PubMed Open Access (PMOA) ケースレポートの最初の公開データセットである。
Llama 3.3とDeepSeek R1の同時抽出により560万回以上のタイムスタンプが得られた。
タイムラインの質を評価するために,3つの指標を用いてクリニカル・カレード・リファレンス・セットに対する評価を行った。
(i)事象レベルのマッチング(コサイン類似度閾値0.1で80%一致)
(ii)時間一致(c-index > 0.90)及び
三 タイムスタンプアライメントのためのログタイムCDF(AULTC)のエリア
コーパスレベルの分析では、広範囲の診断と人口調査が行われている。
下流の生存予測タスクでは、抽出されたタイムラインからの埋め込みは、時間依存の一致指標を最大0.82$\pm$ 0.01まで達成し、時間的構造化された物語の予測値を示す。
PMOA-TTSは、生物学的NLPにおけるタイムライン抽出、時間的推論、縦断モデリングのためのスケーラブルな基盤を提供する。
データセットは、https://huggingface.co/datasets/snoroozi/pmoa-tts で利用可能である。
関連論文リスト
- A Large-Language Model Framework for Relative Timeline Extraction from PubMed Case Reports [10.869574822060553]
本稿では,ケースレポートを時系列化されたテキストイベントとタイムスタンプのペアに変換するシステムを提案する。
この研究は、時間分析にPMOAコーパスを活用するためのベンチマークとして機能する可能性がある。
論文 参考訳(メタデータ) (2025-04-15T20:54:19Z) - Reconstructing Sepsis Trajectories from Clinical Case Reports using LLMs: the Textual Time Series Corpus for Sepsis [7.734726150561087]
臨床症例報告と退院サマリーは、患者遭遇の最も完全かつ正確な要約であり得るが、それらは最終的、すなわち、遭遇後のタイムスタンプである。
我々は,大規模言語モデルを用いた症例報告において,時間的局所的な発見を表現し,抽出し,注釈するパイプラインを構築した。
論文 参考訳(メタデータ) (2025-04-12T03:07:44Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Knowledge Enhanced Conditional Imputation for Healthcare Time-series [9.937117045677923]
Conditional Self-Attention Imputation (CSAI)は、複雑な欠落データパターンの課題に対処するために設計された、新しいリカレントニューラルネットワークアーキテクチャである。
CSAIは、EHRデータ特性に特化して、現在の最先端のニューラルネットワークベースの計算手法を拡張している。
この研究は、アルゴリズム的計算を臨床的現実とより緊密に整合させることにより、ERHに適用されるニューラルネットワーク計算の状態を著しく改善する。
論文 参考訳(メタデータ) (2023-12-27T20:42:40Z) - Temporal Supervised Contrastive Learning for Modeling Patient Risk
Progression [12.185263022907744]
本稿では,患者時系列の各段階の埋め込み表現を学習する教師付きコントラスト学習フレームワークを提案する。
組込み空間の近傍点は類似した予測クラス確率を持ち,(2)組込み空間の近傍点に同じ時系列マップの隣接時間ステップ,(3)組込み空間の遠く離れた領域に全く異なる原特徴ベクトルを持つ時間ステップを持つ。
論文 参考訳(メタデータ) (2023-12-10T16:43:15Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - T-Phenotype: Discovering Phenotypes of Predictive Temporal Patterns in
Disease Progression [82.85825388788567]
我々は、ラベル付き時系列データから予測時相パターンの表現型を発見するために、新しい時間的クラスタリング手法T-Phenotypeを開発した。
T-フェノタイプは, 評価ベースラインのすべてに対して, 最良の表現型発見性能を示す。
論文 参考訳(メタデータ) (2023-02-24T13:30:35Z) - Shorter Latency of Real-time Epileptic Seizure Detection via
Probabilistic Prediction [6.480989310008518]
本稿では,確率的予測によるてんかん発作検出遅延の短縮を目的とした新しいディープラーニングフレームワークを提案する。
提案手法は,CHB-MITの頭蓋内EEGデータセットとSWEC-ETHZの頭蓋内EEGデータセットである。
得られた検出レイテンシは, 従来研究で報告された最先端結果よりも少なくとも50%短い。
論文 参考訳(メタデータ) (2023-01-04T08:45:47Z) - Clinical Temporal Relation Extraction with Probabilistic Soft Logic
Regularization and Global Inference [50.029659413650194]
既存のメソッドは、高価な機能エンジニアリングを必要とするか、イベント間のグローバルな依存関係をモデル化できない。
本稿では,確率論的ソフト論理規則化とグローバル推論を用いた新しい臨床時間緩和法を提案する。
論文 参考訳(メタデータ) (2020-12-16T08:23:03Z) - Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。
以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-04T19:21:37Z) - Trajectories, bifurcations and pseudotime in large clinical datasets:
applications to myocardial infarction and diabetes data [94.37521840642141]
混合データ型と欠落値を特徴とする大規模臨床データセット分析のための半教師付き方法論を提案する。
この手法は、次元の減少、データの可視化、クラスタリング、特徴の選択と、部分的に順序付けられた観測列における測地距離(擬時)の定量化のタスクを同時に扱うことのできる弾性主グラフの適用に基づいている。
論文 参考訳(メタデータ) (2020-07-07T21:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。