論文の概要: ITGPT: Generative Pretraining on Irregular Timeseries
- arxiv url: http://arxiv.org/abs/2605.16069v1
- Date: Fri, 15 May 2026 15:31:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.339916
- Title: ITGPT: Generative Pretraining on Irregular Timeseries
- Title(参考訳): ITGPT:不規則な時代を予習する
- Authors: Antoine Honoré, Ming Xiao,
- Abstract要約: タイムズレグレッションモデルは、ラベル付きマルチモーダルデータの大量利用に苦慮することが多い。
ITGPTは、不規則にサンプリングされたタイムリーを扱うように設計されたアテンションベースのアーキテクチャである。
TIHMデータセットを用いて医療タスクの性能評価を行い,CompXデータセットによる予測的メンテナンスタスクについて検討した。
- 参考スコア(独自算出の注目度): 9.826404787886924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Timeseries regression models often struggle to leverage large volumes of labeled multimodal data, particularly when the data are irregularly sampled or contain missing values. This is common in domains like healthcare and predictive maintenance, where data are collected from unreliable sources, and labeling requires expert knowledge or costly equipments. Transformer-based large language models have proven effective on structured data such as text through self-supervised learning (SSL) and generative pretraining (GPT) frameworks. However, such models lack the flexibility to efficiently process irregularly sampled multimodal timeseries data. In this paper, we introduce ITGPT, an attention-based architecture designed for handling multimodal, irregularly sampled timeseries by allowing training with both SSL losses and GPT-like objectives. We evaluate its performance on a healthcare task with the TIHM dataset, and a predictive maintenance task with the CompX dataset. Our results demonstrate that ITGPT achieves state-of-the-art performance without requiring resampling, feature fusion or explicit data imputation. Furthermore, when labels are scarce, ITGPT effectively leverages unlabeled data through SSL and GPT training, outperforming the purely supervised approach. This represents an important step towards efficiently using large and unstructured timeseries datasets for practical inference tasks.
- Abstract(参考訳): タイムズレグレッションモデルは、特にデータが不規則にサンプリングされたり、欠落した値を含む場合、ラベル付きマルチモーダルデータの大量利用に苦慮することが多い。
これは、信頼できない情報源からデータが収集され、ラベル付けには専門家の知識や高価な機器が必要である、医療や予測保守のような領域で一般的である。
トランスフォーマーベースの大規模言語モデルは、自己教師付き学習(SSL)と生成事前学習(GPT)フレームワークを通じてテキストなどの構造化データに有効であることが証明されている。
しかし、そのようなモデルは、不規則にサンプリングされたマルチモーダル・タイムリーデータを効率的に処理する柔軟性に欠ける。
本稿では、SSLロスとGPTライクな目的の両方でトレーニングを行うことで、マルチモーダルで不規則にサンプリングされたタイムリーを扱うために設計されたアテンションベースのアーキテクチャであるITGPTを紹介する。
TIHMデータセットを用いて医療タスクの性能評価を行い,CompXデータセットによる予測的メンテナンスタスクについて検討した。
以上の結果から,ITGPTは再サンプリングや機能融合,明示的なデータ計算を必要とせず,最先端のパフォーマンスを実現していることが示された。
さらに、ラベルが不足している場合、ITGPTはSSLやGPTトレーニングを通じてラベルのないデータを効果的に活用し、純粋に管理されたアプローチよりも優れている。
これは、大規模かつ非構造化の時系列データセットを実用的な推論タスクに効率的に利用するための重要なステップである。
関連論文リスト
- Not All Data are Good Labels: On the Self-supervised Labeling for Time Series Forecasting [37.189362258417624]
本稿では,候補データセットを自然に構築することで,時系列データセットを再ラベルする新たな自己教師型アプローチについて検討する。
単純な再構成ネットワークの最適化において、中間体は自己管理パラダイムの擬似ラベルとして使用される。
実世界の11のデータセットの実験では、SCAMは様々なバックボーンモデルの性能を一貫して改善している。
論文 参考訳(メタデータ) (2025-02-20T16:29:37Z) - PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting [90.47748423913369]
最先端のモーション予測モデルは、手動で注釈を付けたり、非常に後処理されたトラジェクトリを備えた、大規模なキュレートされたデータセットに依存している。
PWTはシンプルでスケーラブルな代替手段で、市販の3D検出器とトラッキングから自動生成される、未処理で多様な軌道を使用する。
標準ベンチマーク、特に低データのレシエーション、クロスドメイン、エンドツーエンド、マルチクラスの設定において、強力なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-09T13:48:15Z) - Self-Supervised Pre-Training with Joint-Embedding Predictive Architecture Boosts ECG Classification Performance [0.0]
10のパブリックECGデータベースを組み合わせることで、教師なしの大規模な事前トレーニングデータセットを作成します。
我々は、このデータセットでJEPAを使用してVision Transformerを事前トレーニングし、様々なTB-XLベンチマークでそれらを微調整する。
論文 参考訳(メタデータ) (2024-10-02T08:25:57Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - UniCL: A Universal Contrastive Learning Framework for Large Time Series Models [18.005358506435847]
時系列分析は、金融から医療まで、さまざまな重要なアプリケーションにおいて重要な役割を果たす。
従来の教師付き学習手法は、まず各タスクにおける時系列データの広範なラベルを注釈付けする。
本稿では,時系列基礎モデルの事前学習を目的とした,普遍的でスケーラブルなコントラスト学習フレームワークUniCLを紹介する。
論文 参考訳(メタデータ) (2024-05-17T07:47:11Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - Self-supervised Transformer for Multivariate Clinical Time-Series with
Missing Values [7.9405251142099464]
本稿ではSTraTS(Self-supervised Transformer for TimeSeries)モデルを提案する。
伝統的な密度行列表現を使う代わりに、時系列を観測三重項の集合として扱う。
これは、特にラベル付きデータが制限された場合、死亡予測の最先端手法よりも優れた予測性能を示す。
論文 参考訳(メタデータ) (2021-07-29T19:39:39Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。