論文の概要: Corporate Bankruptcy Prediction with Domain-Adapted BERT
- arxiv url: http://arxiv.org/abs/2312.03194v1
- Date: Wed, 6 Dec 2023 00:05:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:27:55.731943
- Title: Corporate Bankruptcy Prediction with Domain-Adapted BERT
- Title(参考訳): ドメイン適応BERTによる企業破産予測
- Authors: Alex Kim and Sangwon Yoon
- Abstract要約: 本研究は,企業情報公開データを用いて,企業倒産を予測するためのコンテキスト型言語モデルであるBERTに基づく分析を行う。
精度は91.56%であり,予測精度が大幅に向上したことを示す。
- 参考スコア(独自算出の注目度): 7.931904787652709
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study performs BERT-based analysis, which is a representative
contextualized language model, on corporate disclosure data to predict
impending bankruptcies. Prior literature on bankruptcy prediction mainly
focuses on developing more sophisticated prediction methodologies with
financial variables. However, in our study, we focus on improving the quality
of input dataset. Specifically, we employ BERT model to perform sentiment
analysis on MD&A disclosures. We show that BERT outperforms dictionary-based
predictions and Word2Vec-based predictions in terms of adjusted R-square in
logistic regression, k-nearest neighbor (kNN-5), and linear kernel support
vector machine (SVM). Further, instead of pre-training the BERT model from
scratch, we apply self-learning with confidence-based filtering to corporate
disclosure data (10-K). We achieve the accuracy rate of 91.56% and demonstrate
that the domain adaptation procedure brings a significant improvement in
prediction accuracy.
- Abstract(参考訳): 本研究は,企業情報開示データを用いて,企業倒産を予測するための言語モデルであるBERTに基づく分析を行う。
破産予測に関する先行文献は、金融変数を用いたより洗練された予測手法の開発に重点を置いている。
しかし,本研究では,入力データセットの品質向上に重点を置いている。
具体的には、MD&A開示における感情分析を行うためにBERTモデルを用いる。
bert は,ロジスティック回帰,k-nearest neighbor (knn-5), linear kernel support vector machine (svm) において,辞書に基づく予測や word2vec に基づく予測よりも優れていた。
さらに、BERTモデルをゼロから事前学習する代わりに、信頼度に基づくフィルタリングによる自己学習を企業開示データ(10-K)に適用する。
精度は91.56%であり,予測精度が大幅に向上したことを示す。
関連論文リスト
- Enhancing Mean-Reverting Time Series Prediction with Gaussian Processes:
Functional and Augmented Data Structures in Financial Forecasting [0.0]
本稿では,ガウス過程(GP)を基礎構造を持つ平均回帰時系列の予測に適用する。
GPは、平均予測だけでなく、将来の軌道上の確率分布全体を予測する可能性を提供する。
これは、不正なボラティリティ評価が資本損失につながる場合、正確な予測だけでは十分でない金融状況において特に有益である。
論文 参考訳(メタデータ) (2024-02-23T06:09:45Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - Forecasting Cryptocurrency Returns from Sentiment Signals: An Analysis
of BERT Classifiers and Weak Supervision [6.624726878647541]
我々は、テキストデータがラベル付けされていない問題に対処するための、最近提案されたNLPアプローチである弱い学習を導入する。
弱いラベルを用いた微調整は、テキストベースの特徴の予測値を高め、暗号通貨のリターンを予測する文脈で予測精度を高めることを確認した。
より根本的には、我々が提示するモデリングパラダイム、弱いラベル付けドメイン固有テキスト、微調整済みNLPモデルは、(金融)予測において普遍的に適用可能である。
論文 参考訳(メタデータ) (2022-04-06T07:45:05Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Learning Prediction Intervals for Model Performance [1.433758865948252]
モデル性能の予測間隔を計算する手法を提案する。
我々は,幅広いドリフト条件におけるアプローチを評価し,競合ベースラインよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2020-12-15T21:32:03Z) - Robust Validation: Confident Predictions Even When Distributions Shift [24.211408049646153]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。