論文の概要: Scaling Up Diffusion and Flow-based XGBoost Models
- arxiv url: http://arxiv.org/abs/2408.16046v1
- Date: Wed, 28 Aug 2024 18:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 17:54:29.775784
- Title: Scaling Up Diffusion and Flow-based XGBoost Models
- Title(参考訳): 拡散のスケールアップとフローベースXGBoostモデル
- Authors: Jesse C. Cresswell, Taewoo Kim,
- Abstract要約: 本稿では,XGBoostを拡散・流れマッチングモデルにおける関数近似器として利用するための最近の提案について検討する。
より優れた実装では、以前よりも370倍大きなデータセットにスケールできる。
我々は,Fast Calorimeter Simulation Challengeの一環として,大規模科学的データセットについて報告する。
- 参考スコア(独自算出の注目度): 5.944645679491607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel machine learning methods for tabular data generation are often developed on small datasets which do not match the scale required for scientific applications. We investigate a recent proposal to use XGBoost as the function approximator in diffusion and flow-matching models on tabular data, which proved to be extremely memory intensive, even on tiny datasets. In this work, we conduct a critical analysis of the existing implementation from an engineering perspective, and show that these limitations are not fundamental to the method; with better implementation it can be scaled to datasets 370x larger than previously used. Our efficient implementation also unlocks scaling models to much larger sizes which we show directly leads to improved performance on benchmark tasks. We also propose algorithmic improvements that can further benefit resource usage and model performance, including multi-output trees which are well-suited to generative modeling. Finally, we present results on large-scale scientific datasets derived from experimental particle physics as part of the Fast Calorimeter Simulation Challenge. Code is available at https://github.com/layer6ai-labs/calo-forest.
- Abstract(参考訳): グラフデータ生成のための新しい機械学習手法は、科学的な応用に必要なスケールに合わない小さなデータセットでしばしば開発される。
本稿では,XGBoostを関数近似器として用いたグラフデータ上での拡散・流れマッチングモデルを提案する。
本研究では,既存の実装について,工学的観点から批判的な分析を行い,これらの制限が本手法の基本的ではないことを示す。
私たちの効率的な実装は、スケーリングモデルをはるかに大きなサイズにアンロックするので、ベンチマークタスクのパフォーマンスが向上します。
また, 生成モデルに適した多出力木など, 資源利用とモデル性能をさらに向上させるアルゴリズムの改良も提案する。
最後に,Fast Calorimeter Simulation Challengeの一環として,実験粒子物理学から得られた大規模科学的データセットについて報告する。
コードはhttps://github.com/layer6ai-labs/calo-forest.orgから入手できる。
関連論文リスト
- Exploiting Local Features and Range Images for Small Data Real-Time Point Cloud Semantic Segmentation [4.02235104503587]
本稿では,3次元表現から得られる情報を利用して局所的な特徴を巧みにとらえる。
GPUベースのKDTreeは、素早いビルド、クエリ、プロジェクションの強化を、簡単な操作で実現している。
我々は,本モデルの縮小バージョンが,本格的な最先端モデルに対して強い競争力を示すだけでなく,リアルタイムに動作することを示す。
論文 参考訳(メタデータ) (2024-10-14T13:49:05Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Generative Active Learning for Long-tailed Instance Segmentation [55.66158205855948]
キャッシュ勾配に基づいて生成したデータの寄与を推定する新しいアルゴリズムであるBSGALを提案する。
実験により,BSGALはベースラインアプローチより優れ,長い尾のセグメンテーションの性能が効果的に向上することが示された。
論文 参考訳(メタデータ) (2024-06-04T15:57:43Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - X-TIME: An in-memory engine for accelerating machine learning on tabular
data with CAMs [19.086291506702413]
現代的なツリーベースの機械学習モデルは、構造化データから関連する情報を抽出する。
本研究では,新たな精度向上型アナログCAMを実装したアナログデジタルアーキテクチャを提案する。
16nm技術の単一チップで評価した結果、最先端のGPUと比較して119倍のレイテンシで9740倍のスループットを示した。
論文 参考訳(メタデータ) (2023-04-03T18:20:31Z) - A Framework for Large Scale Synthetic Graph Dataset Generation [2.248608623448951]
この研究は、データセットをプロダクションサイズのグラフにスケールするスケーラブルな合成グラフ生成ツールを提案する。
このツールは、研究者にリリース可能なプロプライエタリなデータセットから、一連のパラメトリックモデルを学ぶ。
一連のデータセットにまたがるフレームワークの一般化可能性を示す。
論文 参考訳(メタデータ) (2022-10-04T22:41:33Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Deep Structure Learning using Feature Extraction in Trained Projection
Space [0.0]
我々は、低次元空間における畳み込みによる特徴抽出を可能にするために、Randon-transform(線形データ投影)の自己調整およびデータ依存バージョンを用いてネットワークアーキテクチャを導入する。
PiNetという名前のフレームワークは、エンドツーエンドでトレーニングでき、ボリュームセグメンテーションタスクで有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-09-01T12:16:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。