論文の概要: A Comparison of Decision Forest Inference Platforms from A Database
Perspective
- arxiv url: http://arxiv.org/abs/2302.04430v1
- Date: Thu, 9 Feb 2023 04:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 16:58:30.379981
- Title: A Comparison of Decision Forest Inference Platforms from A Database
Perspective
- Title(参考訳): データベースの観点からみた意思決定フォレスト推論プラットフォームの比較
- Authors: Hong Guan, Mahidhar Reddy Dwarampudi, Venkatesh Gunda, Hong Min, Lei
Yu, Jia Zou
- Abstract要約: 決定森林は、クレジットカード詐欺の検出、ランキング、ビジネスインテリジェンスなど、多くの産業シナリオで使われている最も一般的な機械学習手法の1つである。
ONNX、AmazonのTreeLite、GoogleのDecision Forest、MicrosoftのHummingBird、Nvidia FIL、Leavesなど、多くのフレームワークが開発され、決定森林の推測に費やされた。
- 参考スコア(独自算出の注目度): 4.873098180823506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision forest, including RandomForest, XGBoost, and LightGBM, is one of the
most popular machine learning techniques used in many industrial scenarios,
such as credit card fraud detection, ranking, and business intelligence.
Because the inference process is usually performance-critical, a number of
frameworks were developed and dedicated for decision forest inference, such as
ONNX, TreeLite from Amazon, TensorFlow Decision Forest from Google, HummingBird
from Microsoft, Nvidia FIL, and lleaves. However, these frameworks are all
decoupled with data management frameworks. It is unclear whether in-database
inference will improve the overall performance. In addition, these frameworks
used different algorithms, optimization techniques, and parallelism models. It
is unclear how these implementations will affect the overall performance and
how to make design decisions for an in-database inference framework.
In this work, we investigated the above questions by comprehensively
comparing the end-to-end performance of the aforementioned inference frameworks
and netsDB, an in-database inference framework we implemented. Through this
study, we identified that netsDB is best suited for handling small-scale models
on large-scale datasets and all-scale models on small-scale datasets, for which
it achieved up to hundreds of times of speedup. In addition, the
relation-centric representation we proposed significantly improved netsDB's
performance in handling large-scale models, while the model reuse optimization
we proposed further improved netsDB's performance in handling small-scale
datasets.
- Abstract(参考訳): RandomForest、XGBoost、LightGBMを含む決定森林は、クレジットカード詐欺の検出、ランキング、ビジネスインテリジェンスなど、多くの産業シナリオで使われている最も人気のある機械学習手法の1つである。
推論プロセスは通常パフォーマンスクリティカルであるため、ONNX、AmazonのTreeLite、GoogleのTensorFlow Decision Forest、MicrosoftのHummingBird、Nvidia FIL、lleavesなど、多くのフレームワークが開発され、決定林の推論に費やされている。
しかし、これらのフレームワークはすべてデータ管理フレームワークと分離されている。
データベース内推論が全体的なパフォーマンスを改善するかどうかは不明だ。
さらに、これらのフレームワークは異なるアルゴリズム、最適化手法、並列性モデルを使用していた。
これらの実装が全体的なパフォーマンスにどのように影響するか、データベース内推論フレームワークの設計決定にどのように影響するかは不明だ。
本稿では,前述の推論フレームワークとデータベース内推論フレームワークであるnetsdbのエンドツーエンドパフォーマンスを包括的に比較することにより,上記の質問について検討した。
本研究では,netsdbが大規模データセット上の小規模モデルや,小規模データセット上の全大規模モデルを扱うのに最も適していることを明らかにし,最大で数百倍の高速化を達成した。
さらに,関係中心の表現により,大規模モデルを扱う際のnetsDBの性能が大幅に向上し,モデル再利用の最適化により,小規模データセットを扱う際のnetsDBの性能が向上した。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Transformer Architecture for NetsDB [0.0]
我々はNetsDBで機能するディープラーニングモデルのためのトランスフォーマーのエンドツーエンド実装を作成します。
分散処理、デプロイメント、効率的な推論のために、当社のモデルから重みをロードします。
論文 参考訳(メタデータ) (2024-05-08T04:38:36Z) - Implicit Generative Prior for Bayesian Neural Networks [8.013264410621357]
複雑なデータ構造のための新しいニューラルネットワーク型経験ベイズ(NA-EB)フレームワークを提案する。
NA-EBフレームワークは変分推論と勾配上昇アルゴリズムを組み合わせたものである。
各種タスクの広範囲な評価を通じて,本フレームワークの実践的応用を実証する。
論文 参考訳(メタデータ) (2024-04-27T21:00:38Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Dynamic Ensemble Size Adjustment for Memory Constrained Mondrian Forest [0.0]
本稿では,メモリ制約下では,木に基づくアンサンブル分類器のサイズを増大させることで,その性能が悪化することを示す。
データストリーム上でメモリバウンドのモンドリアン林に最適なアンサンブルサイズが存在することを実験的に示す。
本手法は,安定なデータセットに対して,最適な大きさのモンドリアン林の性能の最大95%を達成できると結論付けた。
論文 参考訳(メタデータ) (2022-10-11T18:05:58Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Mapping the Internet: Modelling Entity Interactions in Complex
Heterogeneous Networks [0.0]
サンプル表現、モデル定義、トレーニングのための汎用性のある統一フレームワークHMill'を提案します。
フレームワークに実装されたモデルによって実現されたすべての関数の集合に対する普遍近似定理の拡張を示す。
このフレームワークを使ってサイバーセキュリティドメインから3つの異なる問題を解決する。
論文 参考訳(メタデータ) (2021-04-19T21:32:44Z) - Probabilistic Case-based Reasoning for Open-World Knowledge Graph
Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。
本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。
提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文 参考訳(メタデータ) (2020-10-07T17:48:12Z) - ENTMOOT: A Framework for Optimization over Ensemble Tree Models [57.98561336670884]
ENTMOOTは、ツリーモデルをより大きな最適化問題に統合するためのフレームワークである。
ENTMOOTは、ツリーモデルの意思決定とブラックボックス最適化への単純な統合を可能にしていることを示す。
論文 参考訳(メタデータ) (2020-03-10T14:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。