論文の概要: multivariateGPT: a decoder-only transformer for multivariate categorical and numeric data
- arxiv url: http://arxiv.org/abs/2505.21680v1
- Date: Tue, 27 May 2025 18:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.24286
- Title: multivariateGPT: a decoder-only transformer for multivariate categorical and numeric data
- Title(参考訳): multivariateGPT:多変量分類および数値データのためのデコーダのみの変換器
- Authors: Andrew J. Loza, Jun Yup Kim, Shangzheng Song, Yihang Liu, Joseph J. Y. Sung, R Andrew Taylor, Dennis L. Shung,
- Abstract要約: 本稿では,混合分類(トークン化テキストを含む)と数値データのシーケンスをモデル化するための単一アーキテクチャを提案する。
簡単な物理系におけるパターンの一般化と複雑な時系列のモデル化を効果的に学習する方法を実証する。
- 参考スコア(独自算出の注目度): 0.279207637545441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world processes often generate data that are a mix of categorical and numeric values that are recorded at irregular and informative intervals. Discrete token-based approaches are limited in numeric representation capacity while methods like neural ordinary differential equations are not well suited for categorical data or informative sampling and require augmentation to handle certain classes of trajectories. Here, we present multivariateGPT, a single architecture for modeling sequences of mixed categorical (including tokenized text) and numeric data. This is accomplished with an autoregressive sequence decomposition, embedding scheme, and loss function that extend the next token prediction task to likelihood estimation of the joint distribution of next token class and value. We demonstrate how this approach can efficiently learn to generalize patterns in simple physical systems and model complex time series including electrocardiograms and multivariate electronic health record data. This work extends the utility of transformer based models to additional classes of data.
- Abstract(参考訳): 現実世界のプロセスは、不規則かつ情報的な間隔で記録される分類値と数値の混合であるデータを生成することが多い。
離散トークンベースのアプローチは数値表現能力に制限があるが、ニューラル常微分方程式のような手法は分類データや情報サンプリングには適していない。
本稿では,多変量GPTについて述べる。多変量GPTは,(トークン化テキストを含む)混成分類と数値データのシーケンスをモデル化するための単一のアーキテクチャである。
これは、次のトークンクラスと値の合同分布を推定するために次のトークン予測タスクを拡張する自己回帰シーケンス分解、埋め込みスキーム、損失関数によって達成される。
簡単な物理系のパターンを効率的に一般化し,心電図や多変量電子健康記録データを含む複雑な時系列をモデル化する方法を実証する。
この作業は、トランスフォーマーベースのモデルの有用性を、追加のデータクラスに拡張する。
関連論文リスト
- Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - NuTime: Numerically Multi-Scaled Embedding for Large-Scale Time-Series Pretraining [28.595342663018627]
時系列データの数値特性に合わせた重要な技術的貢献を行う。
入力をオーバーラップしないウィンドウに分割することでTransformerアーキテクチャを採用する。
任意の数値振幅を持つスカラー値を高次元空間に埋め込むために,数値的に多スケールな埋め込みモジュールを提案する。
論文 参考訳(メタデータ) (2023-10-11T11:38:18Z) - Probabilistic Imputation for Time-series Classification with Missing
Data [17.956329906475084]
時系列データを欠落した値で分類する新しいフレームワークを提案する。
我々の深層生成モデル部分は、欠落した値を複数の可算的な方法で解釈するように訓練されている。
分類部は、インプットされた不足値とともに時系列データを取り込み、信号を分類する。
論文 参考訳(メタデータ) (2023-08-13T10:04:13Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Autoencoder Based Iterative Modeling and Multivariate Time-Series
Subsequence Clustering Algorithm [0.0]
本稿では、過渡時系列データ(MTSD)における変化点の検出と対応する部分列の同定のためのアルゴリズムを提案する。
我々は、リカレントニューラルネットワーク(RNN)ベースのオートエンコーダ(AE)を用いて、入ってくるデータに基づいて反復的に訓練する。
同定されたサブシーケンスのモデルを保存し、繰り返しサブシーケンスの認識と高速オフラインクラスタリングに使用する。
論文 参考訳(メタデータ) (2022-09-09T09:59:56Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - TACTiS: Transformer-Attentional Copulas for Time Series [76.71406465526454]
時間変化量の推定は、医療や金融などの分野における意思決定の基本的な構成要素である。
本稿では,アテンションベースデコーダを用いて関節分布を推定する多元的手法を提案する。
本研究では,本モデルが実世界の複数のデータセットに対して最先端の予測を生成することを示す。
論文 参考訳(メタデータ) (2022-02-07T21:37:29Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z) - Variational Hyper RNN for Sequence Modeling [69.0659591456772]
本稿では,時系列データにおける高変数の取得に優れる新しい確率的シーケンスモデルを提案する。
提案手法では,時間潜時変数を用いて基礎となるデータパターンに関する情報をキャプチャする。
提案手法の有効性を,合成および実世界のシーケンシャルデータに示す。
論文 参考訳(メタデータ) (2020-02-24T19:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。