論文の概要: Class-Imbalanced-Aware Adaptive Dataset Distillation for Scalable Pretrained Model on Credit Scoring
- arxiv url: http://arxiv.org/abs/2501.10677v2
- Date: Sat, 01 Feb 2025 03:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:05:51.240839
- Title: Class-Imbalanced-Aware Adaptive Dataset Distillation for Scalable Pretrained Model on Credit Scoring
- Title(参考訳): 信用スコーリングに基づくスケーラブル事前学習モデルに対するクラス不均衡対応型適応データセット蒸留法
- Authors: Xia Li, Hanghang Zheng, Xiao Chen, Hong Liu, Mao Mao,
- Abstract要約: 金融データセット上での大規模事前学習モデルの適用を拡大するための新しいフレームワークを提案する。
我々は,データセット蒸留における不均衡認識技術を統合することにより,財務データセットの性能が向上した。
- 参考スコア(独自算出の注目度): 10.737033782376905
- License:
- Abstract: The advent of artificial intelligence has significantly enhanced credit scoring technologies. Despite the remarkable efficacy of advanced deep learning models, mainstream adoption continues to favor tree-structured models due to their robust predictive performance on tabular data. Although pretrained models have seen considerable development, their application within the financial realm predominantly revolves around question-answering tasks and the use of such models for tabular-structured credit scoring datasets remains largely unexplored. Tabular-oriented large models, such as TabPFN, has made the application of large models in credit scoring feasible, albeit can only processing with limited sample sizes. This paper provides a novel framework to combine tabular-tailored dataset distillation technique with the pretrained model, empowers the scalability for TabPFN. Furthermore, though class imbalance distribution is the common nature in financial datasets, its influence during dataset distillation has not been explored. We thus integrate the imbalance-aware techniques during dataset distillation, resulting in improved performance in financial datasets (e.g., a 2.5% enhancement in AUC). This study presents a novel framework for scaling up the application of large pretrained models on financial tabular datasets and offers a comparative analysis of the influence of class imbalance on the dataset distillation process. We believe this approach can broaden the applications and downstream tasks of large models in the financial domain.
- Abstract(参考訳): 人工知能の出現は信用スコアリング技術を著しく強化した。
高度なディープラーニングモデルの顕著な有効性にもかかわらず、主要な採用は、表データの堅牢な予測性能のため、木構造モデルを支持し続けている。
事前訓練されたモデルはかなりの発展を遂げてきたが、金融分野におけるそれらの応用は、主に質問応答タスクを中心に展開し、表構造による信用評価データセットに対するそのようなモデルの使用は、ほとんど未調査のままである。
TabPFNのようなタブラリ指向の大規模モデルは、限定的なサンプルサイズでしか処理できないが、クレジットスコアリングに大規模なモデルを適用した。
本稿では,TabPFNの拡張性を高めるために,表層形状のデータセット蒸留技術と事前学習モデルを組み合わせた新しいフレームワークを提案する。
さらに, クラス不均衡分布は, 財務データセットに共通する性質であるが, データセット蒸留における影響は検討されていない。
そこで我々は,データセット蒸留における不均衡認識技術を統合することにより,財務データセットの性能が向上する(例えば,AUCの2.5%向上)。
本研究では,大規模な事前学習モデルの財務表表データセットへの適用を拡大するための新しい枠組みを提案し,データセット蒸留プロセスにおけるクラス不均衡の影響を比較分析する。
このアプローチは金融分野における大規模モデルのアプリケーションとダウンストリームタスクを拡大できると考えています。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Escaping the Forest: Sparse Interpretable Neural Networks for Tabular Data [0.0]
我々のモデルであるSparse TABular NET や sTAB-Net がツリーベースモデルよりも効果的であることを示す。
SHAPのようなポストホックメソッドよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-23T10:50:07Z) - A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - Gradient Reduction Convolutional Neural Network Policy for Financial Deep Reinforcement Learning [0.0]
本稿では、CNNモデルの予測性能と財務データの堅牢性を改善するための2つの重要な拡張を紹介する。
まず、入力段階で正規化層を統合し、一貫した機能スケーリングを保証する。
第二に、グラディエント・リダクション・アーキテクチャ(Gradient Reduction Architecture)を採用しています。
論文 参考訳(メタデータ) (2024-08-16T11:39:03Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Turning the Tables: Biased, Imbalanced, Dynamic Tabular Datasets for ML
Evaluation [3.737892247639591]
Bank Account Fraud (BAF)は、初めて公開され、プライバシーを保護し、大規模で現実的なグラフデータセットスイートである。
BAFは、時間的ダイナミクスや重要なクラス不均衡など、現実世界のアプリケーションで一般的な課題の集合である。
我々は,新しい手法と既存手法を評価するために,より現実的で完全かつ堅牢なテストベッドを研究コミュニティに提供することを目的としている。
論文 参考訳(メタデータ) (2022-11-24T00:03:29Z) - Graph-Regularized Tensor Regression: A Domain-Aware Framework for
Interpretable Multi-Way Financial Modelling [23.030263841031633]
そこで我々は,グラフラプラシアン行列の形で,相互関係に関する知識をモデルに組み込む新しいグラフ正規化回帰(GRTR)フレームワークを開発した。
テンソル代数(英語版)により、提案されたフレームワークは係数と次元の両方で完全に解釈可能であることが示されている。
GRTRモデルは、マルチウェイの財務予測設定で検証され、計算コストの削減による性能向上が示されている。
論文 参考訳(メタデータ) (2022-10-26T13:39:08Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。
実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文 参考訳(メタデータ) (2020-05-21T21:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。