論文の概要: Fast Factorized Learning: Powered by In-Memory Database Systems
- arxiv url: http://arxiv.org/abs/2512.09836v1
- Date: Wed, 10 Dec 2025 17:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.60813
- Title: Fast Factorized Learning: Powered by In-Memory Database Systems
- Title(参考訳): ファクトファクチュアライズドラーニング:インメモリデータベースシステムによるパワーアップ
- Authors: Bernhard Stöckl, Maximilian E. Schüle,
- Abstract要約: 因子化結合を超越した学習モデルは、共有コファクタの特定と事前計算によって冗長な計算を避ける。
私たちは、ディスクベースのデータベースシステムとして、そしてインメモリエンジンとしてHyPerとともに、分解された結合に関する線形回帰を学習するためのオープンソースの実装をベンチマークします。
評価の結果,インメモリデータベースシステムでは,非ファクタライズ学習に70%,ディスクベースデータベースシステムに比較して100倍の性能向上が見られた。
- 参考スコア(独自算出の注目度): 1.638616058563312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning models over factorized joins avoids redundant computations by identifying and pre-computing shared cofactors. Previous work has investigated the performance gain when computing cofactors on traditional disk-based database systems. Due to the absence of published code, the experiments could not be reproduced on in-memory database systems. This work describes the implementation when using cofactors for in-database factorized learning. We benchmark our open-source implementation for learning linear regression on factorized joins with PostgreSQL -- as a disk-based database system -- and HyPer -- as an in-memory engine. The evaluation shows a performance gain of factorized learning on in-memory database systems by 70\% to non-factorized learning and by a factor of 100 compared to disk-based database systems. Thus, modern database engines can contribute to the machine learning pipeline by pre-computing aggregates prior to data extraction to accelerate training.
- Abstract(参考訳): 因子化された結合に関する学習モデルは、共有コファクタの特定と事前計算によって冗長な計算を避ける。
これまで、従来のディスクベースのデータベースシステム上でのコファクターの計算における性能向上について研究されてきた。
公開コードがないため、実験はインメモリデータベースシステムでは再現できなかった。
この研究は、データベース内の因数分解学習にコファクターを使用する際の実装について説明する。
私たちは、ディスクベースのデータベースシステムであるPostgreSQLと、インメモリエンジンであるHyPerとの因数分解結合に関する線形回帰を学習するためのオープンソースの実装をベンチマークしました。
評価の結果, インメモリデータベースシステムでは, 非ファクタライズ学習に対して70倍, ディスクベースデータベースシステムと比較して100倍の性能向上が見られた。
したがって、現代のデータベースエンジンは、データ抽出に先立って集約を事前計算してトレーニングを加速することで、機械学習パイプラインに寄与することができる。
関連論文リスト
- Compressive Meta-Learning [49.300635370079874]
圧縮学習(Compressive learning)は、ランダムで非線形な特徴を用いることで効率的な処理を可能にするフレームワークである。
圧縮学習手法の符号化段階と復号段階の両方をメタラーニングするフレームワークを提案する。
ニューラルネットワークベースの圧縮PCA、圧縮リッジ回帰、圧縮k平均、オートエンコーダなど、複数のアプリケーションについて検討する。
論文 参考訳(メタデータ) (2025-08-14T22:08:06Z) - Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - Scalable Federated Unlearning via Isolated and Coded Sharding [76.12847512410767]
フェデレートされたアンラーニングは、クライアントレベルのデータエフェクトを削除するための有望なパラダイムとして登場した。
本稿では,分散シャーディングと符号化コンピューティングに基づく,スケーラブルなフェデレーション・アンラーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T08:41:45Z) - Controlling dynamical systems to complex target states using machine
learning: next-generation vs. classical reservoir computing [68.8204255655161]
機械学習を用いた非線形力学系の制御は、システムを周期性のような単純な振る舞いに駆動するだけでなく、より複雑な任意の力学を駆動する。
まず, 従来の貯水池計算が優れていることを示す。
次のステップでは、これらの結果を異なるトレーニングデータに基づいて比較し、代わりに次世代貯水池コンピューティングを使用する別のセットアップと比較する。
その結果、通常のトレーニングデータに対して同等のパフォーマンスを提供する一方で、次世代RCは、非常に限られたデータしか利用できない状況において、著しくパフォーマンスが向上していることがわかった。
論文 参考訳(メタデータ) (2023-07-14T07:05:17Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。
我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文 参考訳(メタデータ) (2022-09-29T08:16:52Z) - On the benefits of self-taught learning for brain decoding [0.0]
我々は,fMRI統計図からなる大規模公開神経画像データベースを,新しいタスクにおける脳のデコードを改善するための自己学習フレームワークで活用することの利点について検討した。
まず、NeuroVaultデータベースを利用して、関連する統計マップの選択に基づいて、畳み込みオートエンコーダを使ってこれらのマップを再構築する。
次に、このトレーニングされたエンコーダを用いて、教師付き畳み込みニューラルネットワークを初期化し、NeuroVaultデータベースの大規模なコレクションから見えない統計マップのタスクまたは認知過程を分類する。
論文 参考訳(メタデータ) (2022-09-19T08:10:17Z) - MLPerfTM HPC: A Holistic Benchmark Suite for Scientific Machine Learning
on HPC Systems [32.621917787044396]
我々はMLCommonsTM Associationが推進する科学機械学習トレーニングアプリケーションのベンチマークスイートであるHPCを紹介する。
共同分析のための体系的なフレームワークを開発し、データステージング、アルゴリズム収束、計算性能の観点から比較する。
低レベルのメモリ、I/O、ネットワークの振る舞いに関して、各ベンチマークを特徴付けることで結論付ける。
論文 参考訳(メタデータ) (2021-10-21T20:30:12Z) - On the Pitfalls of Learning with Limited Data: A Facial Expression
Recognition Case Study [0.5249805590164901]
私達はビデオからの顔表現の認識の問題に焦点を合わせます。
4つのデータベースを異なる複雑さで,9つのディープラーニングアーキテクチャで動画分類を行った。
複雑なトレーニングセットは、トランスファーラーニングと合成生成データでトレーニングすると、より安定したテストセットによく変換されます。
論文 参考訳(メタデータ) (2021-04-02T18:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。