論文の概要: Integrated Multivariate Segmentation Tree for the Analysis of Heterogeneous Credit Data in Small and Medium-Sized Enterprises
- arxiv url: http://arxiv.org/abs/2509.00550v1
- Date: Sat, 30 Aug 2025 16:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.282534
- Title: Integrated Multivariate Segmentation Tree for the Analysis of Heterogeneous Credit Data in Small and Medium-Sized Enterprises
- Title(参考訳): 中小企業における不均一信用データ分析のための統合多変量分割木
- Authors: Lu Han, Xiuying Wang,
- Abstract要約: 本研究では、財務データをテキストソースと統合し、中小企業の信用評価を強化するための総合的な枠組みを提案する。
中国の中小企業のデータセットから得られた実験結果によると、IMSTの精度は88.9%である。
提案モデルでは,より合理化されたアーキテクチャとリスク検出能力の強化を特徴とする,優れた解釈性と計算効率を示す。
- 参考スコア(独自算出の注目度): 11.497136544404727
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Traditional decision tree models, which rely exclusively on numerical variables, often encounter difficulties in handling high-dimensional data and fail to effectively incorporate textual information. To address these limitations, we propose the Integrated Multivariate Segmentation Tree (IMST), a comprehensive framework designed to enhance credit evaluation for small and medium-sized enterprises (SMEs) by integrating financial data with textual sources. The methodology comprises three core stages: (1) transforming textual data into numerical matrices through matrix factorization; (2) selecting salient financial features using Lasso regression; and (3) constructing a multivariate segmentation tree based on the Gini index or Entropy, with weakest-link pruning applied to regulate model complexity. Experimental results derived from a dataset of 1,428 Chinese SMEs demonstrate that IMST achieves an accuracy of 88.9%, surpassing baseline decision trees (87.4%) as well as conventional models such as logistic regression and support vector machines (SVM). Furthermore, the proposed model exhibits superior interpretability and computational efficiency, featuring a more streamlined architecture and enhanced risk detection capabilities.
- Abstract(参考訳): 数値変数にのみ依存する伝統的な決定木モデルは、高次元データを扱うのに困難に遭遇し、テキスト情報を効果的に組み込むことができないことが多い。
これらの制約に対処するため,中小企業(中小企業)の財務データをテキストソースと統合して信用評価を強化するための総合的なフレームワークIMSTを提案する。
本手法は,(1)行列分解によるテキストデータの数値行列への変換,(2)ラッソ回帰を用いた健全な財務特徴の選択,(3)Gini指数やEntropyに基づく多変量セグメンテーションツリーの構築,そしてモデル複雑性の制御に最も弱いリンクプルーニングを適用した。
1,428の中国の中小企業のデータセットから得られた実験結果は、IMSTが88.9%の精度を達成し、ベースライン決定木(87.4%)を上回り、ロジスティック回帰やサポートベクターマシン(SVM)のような従来のモデルも上回っていることを示している。
さらに,提案モデルでは,より合理化されたアーキテクチャとリスク検出能力の強化を特徴として,より優れた解釈性と計算効率を示す。
関連論文リスト
- MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Learning Massive-scale Partial Correlation Networks in Clinical Multi-omics Studies with HP-ACCORD [10.459304300065186]
マルチオミクスデータ解析のための新しい擬似類似性に基づくグラフィカル・モデル・フレームワークを提案する。
提案した推定器は,高次元仮定下での様々な指標における推定と選択の整合性を維持する。
最大100万変数のシミュレーションデータを用いて,本フレームワークの高性能コンピューティング実装を検証した。
論文 参考訳(メタデータ) (2024-12-16T08:38:02Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Explaining a Series of Models by Propagating Local Feature Attributions [9.66840768820136]
複数の機械学習モデルを含むパイプラインは、多くの領域でパフォーマンスが向上するが、理解が難しい。
Shapley値への接続に基づいて、モデルの複雑なパイプラインを通じてローカル機能属性を伝播させるフレームワークを紹介します。
本フレームワークにより,アルツハイマー病および乳癌の組織学的診断における遺伝子発現特徴群に基づく高次結論の導出が可能となった。
論文 参考訳(メタデータ) (2021-04-30T22:20:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。