論文の概要: Beyond Tree Models: A Hybrid Model of KAN and gMLP for Large-Scale Financial Tabular Data
- arxiv url: http://arxiv.org/abs/2412.02097v1
- Date: Tue, 03 Dec 2024 02:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:43:23.227278
- Title: Beyond Tree Models: A Hybrid Model of KAN and gMLP for Large-Scale Financial Tabular Data
- Title(参考訳): 木モデルを超えて:大規模金融タブラルデータのためのkanとgMLPのハイブリッドモデル
- Authors: Mingming Zhang, Jiahao Hu, Pengfei Shi, Ningtao Wang, Ruizhe Gao, Guandong Sun, Feng Zhao, Yulin kang, Xing Fu, Weiqiang Wang, Junbo Zhao,
- Abstract要約: TKGMLPは、浅いコルモゴロフ・アーノルドネットワークとGated Multilayer Perceptronを組み合わせた表型データのためのハイブリッドネットワークである。
我々は、TKGMLPを現実の信用スコアデータセットで検証し、最先端の結果を達成し、現在のベンチマークより優れています。
本稿では,財務データセットにおける数値的特徴の優位性に対処するために,数値的データのための新しい特徴符号化手法を提案する。
- 参考スコア(独自算出の注目度): 28.34587057844627
- License:
- Abstract: Tabular data plays a critical role in real-world financial scenarios. Traditionally, tree models have dominated in handling tabular data. However, financial datasets in the industry often encounter some challenges, such as data heterogeneity, the predominance of numerical features and the large scale of the data, which can range from tens of millions to hundreds of millions of records. These challenges can lead to significant memory and computational issues when using tree-based models. Consequently, there is a growing need for neural network-based solutions that can outperform these models. In this paper, we introduce TKGMLP, an hybrid network for tabular data that combines shallow Kolmogorov Arnold Networks with Gated Multilayer Perceptron. This model leverages the strengths of both architectures to improve performance and scalability. We validate TKGMLP on a real-world credit scoring dataset, where it achieves state-of-the-art results and outperforms current benchmarks. Furthermore, our findings demonstrate that the model continues to improve as the dataset size increases, making it highly scalable. Additionally, we propose a novel feature encoding method for numerical data, specifically designed to address the predominance of numerical features in financial datasets. The integration of this feature encoding method within TKGMLP significantly improves prediction accuracy. This research not only advances table prediction technology but also offers a practical and effective solution for handling large-scale numerical tabular data in various industrial applications.
- Abstract(参考訳): タブラルデータは、現実世界の金融シナリオにおいて重要な役割を果たす。
伝統的に、ツリーモデルは表データの処理に支配的であった。
しかし、業界内の財務データセットは、データ不均一性、数値的特徴の優位性、データの大規模化など、数千万から数億のレコードに遭遇することが多い。
これらの課題は、ツリーベースモデルを使用する際のメモリと計算上の重大な問題を引き起こす可能性がある。
その結果、これらのモデルよりも優れたニューラルネットワークベースのソリューションの必要性が高まっている。
本稿では,浅いコルモゴロフ・アーノルドネットワークとGated Multilayer Perceptronを組み合わせた表型データ用ハイブリッドネットワークTKGMLPを提案する。
このモデルは、両方のアーキテクチャの強みを活用して、パフォーマンスとスケーラビリティを改善します。
我々は、TKGMLPを現実の信用スコアデータセットで検証し、最先端の結果を達成し、現在のベンチマークより優れています。
さらに,データセットのサイズが大きくなるにつれてモデルも改善され続けており,高いスケーラビリティを実現している。
また,財務データセットにおける数値的特徴の優位性に対処するために,数値的データのための新しい特徴符号化手法を提案する。
TKGMLPにおける特徴符号化手法の統合により、予測精度が大幅に向上する。
本研究は, テーブル予測技術の進歩だけでなく, 各種産業アプリケーションにおける大規模数値表データ処理の実践的, 効果的なソリューションも提供する。
関連論文リスト
- Class-Imbalanced-Aware Adaptive Dataset Distillation for Scalable Pretrained Model on Credit Scoring [10.737033782376905]
金融データセット上での大規模事前学習モデルの適用を拡大するための新しいフレームワークを提案する。
我々は,データセット蒸留における不均衡認識技術を統合することにより,財務データセットの性能が向上した。
論文 参考訳(メタデータ) (2025-01-18T06:59:36Z) - GNN Applied to Ego-nets for Friend Suggestions [0.0]
我々は、拡張性を犠牲にすることなく複雑な教師付きモデルを使用することを可能にする、一般化ネットワークフレンドシップスコアフレームワークを紹介した。
基礎となるモデルは、Ego-netを入力として取り、そのノードに対するペアワイズ関連行列を生成する。
さらに,ソーシャルネットワーク領域で効果的に機能するWalkGNNモデルを開発した。
論文 参考訳(メタデータ) (2024-12-16T15:37:17Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Escaping the Forest: Sparse Interpretable Neural Networks for Tabular Data [0.0]
我々のモデルであるSparse TABular NET や sTAB-Net がツリーベースモデルよりも効果的であることを示す。
SHAPのようなポストホックメソッドよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-23T10:50:07Z) - A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Graph-Regularized Tensor Regression: A Domain-Aware Framework for
Interpretable Multi-Way Financial Modelling [23.030263841031633]
そこで我々は,グラフラプラシアン行列の形で,相互関係に関する知識をモデルに組み込む新しいグラフ正規化回帰(GRTR)フレームワークを開発した。
テンソル代数(英語版)により、提案されたフレームワークは係数と次元の両方で完全に解釈可能であることが示されている。
GRTRモデルは、マルチウェイの財務予測設定で検証され、計算コストの削減による性能向上が示されている。
論文 参考訳(メタデータ) (2022-10-26T13:39:08Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。
実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文 参考訳(メタデータ) (2020-05-21T21:44:21Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。