論文の概要: Scalable High-Dimensional Multivariate Linear Regression for
Feature-Distributed Data
- arxiv url: http://arxiv.org/abs/2307.03410v1
- Date: Fri, 7 Jul 2023 06:24:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 13:19:45.611625
- Title: Scalable High-Dimensional Multivariate Linear Regression for
Feature-Distributed Data
- Title(参考訳): 特徴分散データに対するスケーラブルな高次元多変数線形回帰
- Authors: Shuo-Chieh Huang, Ruey S. Tsay
- Abstract要約: 本稿では,多変量線形回帰を特徴分散データに適用するための2段階緩和グリードアルゴリズムを提案する。
TSRGAの主な利点は、通信の複雑さが特徴次元に依存しないので、非常に大きなデータセットに高いスケーラビリティをもたらすことである。
提案したTSRGAを10-Kレポートから非構造化データを活用する金融アプリケーションに適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature-distributed data, referred to data partitioned by features and stored
across multiple computing nodes, are increasingly common in applications with a
large number of features. This paper proposes a two-stage relaxed greedy
algorithm (TSRGA) for applying multivariate linear regression to such data. The
main advantage of TSRGA is that its communication complexity does not depend on
the feature dimension, making it highly scalable to very large data sets. In
addition, for multivariate response variables, TSRGA can be used to yield
low-rank coefficient estimates. The fast convergence of TSRGA is validated by
simulation experiments. Finally, we apply the proposed TSRGA in a financial
application that leverages unstructured data from the 10-K reports,
demonstrating its usefulness in applications with many dense large-dimensional
matrices.
- Abstract(参考訳): 特徴分散データ(Feature-distributed data)は、機能によって分割され、複数のコンピューティングノードにまたがるデータを指すもので、多数の機能を持つアプリケーションではますます一般的になっている。
本稿では,そのデータに多変量線形回帰を適用するための2段階緩和グリードアルゴリズム(TSRGA)を提案する。
TSRGAの主な利点は、通信の複雑さが特徴次元に依存しないので、非常に大きなデータセットに高いスケーラビリティをもたらすことである。
さらに、多変量応答変数に対しては、TSRGAを用いて低ランク係数推定を行うことができる。
TSRGAの高速収束はシミュレーション実験により検証された。
最後に,提案するtsrgaを10-k報告書の非構造化データを活用した金融アプリケーションに適用し,密集した大次元行列を用いたアプリケーションにおいて有用性を示す。
関連論文リスト
- Multilinear Kernel Regression and Imputation via Manifold Learning [5.482532589225551]
MultiL-KRIMは、空間の直感的な概念に基づいて構築され、ポイントクラウドの隣人(回帰者)間の協調を損失関数のデータモデリング用語に直接組み込む。
2つの重要なアプリケーションドメインはMultiL-KRIMの機能を示す: 時間変化グラフ信号(TVGS)リカバリと、高速な動的磁気共鳴イメージング(dMRI)データの再構成である。
論文 参考訳(メタデータ) (2024-02-06T02:50:42Z) - Efficient Nonparametric Tensor Decomposition for Binary and Count Data [27.02813234958821]
本稿では、二分数テンソルと数テンソルのアンダーラインデコンポジションとして、アンダーライン効率のアンダーラインNonアンダーラインテンソルであるENTEDを提案する。
論文 参考訳(メタデータ) (2024-01-15T14:27:03Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Heterogeneous Multi-Task Gaussian Cox Processes [61.67344039414193]
異種相関タスクを共同でモデル化するためのマルチタスクガウスコックスプロセスの新たな拡張を提案する。
MOGPは、分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行して、異種タスク間の情報の共有を容易にする。
モデルパラメータを推定するための閉形式反復更新を実現する平均場近似を導出する。
論文 参考訳(メタデータ) (2023-08-29T15:01:01Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Scalable Gaussian Processes for Data-Driven Design using Big Data with
Categorical Factors [14.337297795182181]
ガウス過程(GP)は、大きなデータセット、カテゴリ入力、および複数の応答を調節するのに困難である。
本稿では,変分推論によって得られた潜伏変数と関数を用いて,上記の課題を同時に解決するGPモデルを提案する。
本手法は三元系酸化物材料の機械学習と多スケール対応機構のトポロジー最適化に有用である。
論文 参考訳(メタデータ) (2021-06-26T02:17:23Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z) - Random Sampling High Dimensional Model Representation Gaussian Process
Regression (RS-HDMR-GPR) for representing multidimensional functions with
machine-learned lower-dimensional terms allowing insight with a general
method [0.0]
RS-HDMR-GPR(Random Smpling High-dimensional Model Representation Gaussian Process Regression)のためのPython実装
コードにより、変数の欠落した値を計算し、HDMR項の有用な数を大幅に減らすことができる。
この回帰ツールの能力は、合成分析機能、水分子のポテンシャルエネルギー表面、物質の運動エネルギー密度、金融市場データを含む試験ケースで実証される。
論文 参考訳(メタデータ) (2020-11-24T00:12:05Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Fast cross-validation for multi-penalty ridge regression [0.0]
リッジ回帰は高次元データの単純なモデルである。
我々の主な貢献は、多孔質でサンプル重み付けされた帽子行列に対する計算的に非常に効率的な公式である。
ペアデータ型および優先データ型への拡張は、いくつかのがんゲノム生存予測問題に含まれ、図示されている。
論文 参考訳(メタデータ) (2020-05-19T09:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。