論文の概要: Next-Year Bankruptcy Prediction from Textual Data: Benchmark and
Baselines
- arxiv url: http://arxiv.org/abs/2208.11334v1
- Date: Wed, 24 Aug 2022 07:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 13:04:42.117802
- Title: Next-Year Bankruptcy Prediction from Textual Data: Benchmark and
Baselines
- Title(参考訳): テキストデータによる次世代倒産予測:ベンチマークとベースライン
- Authors: Henri Arno, Klaas Mulier, Joke Baeck and Thomas Demeester
- Abstract要約: 倒産予測のモデルは、いくつかの現実世界のシナリオで有用である。
共通のベンチマークデータセットと評価戦略の欠如は、モデル間の客観的比較を妨げる。
本稿では、新しいデータセットと確立されたデータセットに基づいて、構造化されていないデータシナリオに対するそのようなベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 10.944533132358439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models for bankruptcy prediction are useful in several real-world scenarios,
and multiple research contributions have been devoted to the task, based on
structured (numerical) as well as unstructured (textual) data. However, the
lack of a common benchmark dataset and evaluation strategy impedes the
objective comparison between models. This paper introduces such a benchmark for
the unstructured data scenario, based on novel and established datasets, in
order to stimulate further research into the task. We describe and evaluate
several classical and neural baseline models, and discuss benefits and flaws of
different strategies. In particular, we find that a lightweight bag-of-words
model based on static in-domain word representations obtains surprisingly good
results, especially when taking textual data from several years into account.
These results are critically assessed, and discussed in light of particular
aspects of the data and the task. All code to replicate the data and
experimental results will be released.
- Abstract(参考訳): 破産予測のモデルは、いくつかの現実世界のシナリオで有用であり、構造化された(数値的)データと非構造化された(テキスト的)データに基づいて、複数の研究貢献がなされている。
しかし、共通のベンチマークデータセットと評価戦略の欠如は、モデル間の客観的比較を妨げる。
本稿では,タスクのさらなる研究を促進するために,新しいデータセットと確立されたデータセットに基づく非構造化データシナリオのベンチマークを紹介する。
いくつかの古典的および神経的ベースラインモデルを記述し、評価し、異なる戦略の利点と欠陥について議論する。
特に、静的なドメイン内単語表現に基づく軽量なback-of-wordsモデルでは、特に数年のテキストデータを考慮した場合、驚くほど良い結果が得られる。
これらの結果は批判的に評価され、データとタスクの特定の側面に照らして議論される。
データと実験結果を複製するすべてのコードがリリースされる。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - EBES: Easy Benchmarking for Event Sequences [17.277513178760348]
イベントシーケンスは、ヘルスケア、ファイナンス、ユーザインタラクションログなど、さまざまな現実世界のドメインにおける一般的なデータ構造である。
時間データモデリング技術の進歩にもかかわらず、イベントシーケンスのパフォーマンスを評価するための標準ベンチマークは存在しない。
標準化された評価シナリオとプロトコルを備えた総合的なベンチマークツールであるEBESを紹介する。
論文 参考訳(メタデータ) (2024-10-04T13:03:43Z) - Numerical Literals in Link Prediction: A Critical Examination of Models and Datasets [2.5999037208435705]
数値リテラルを組み込んだリンク予測モデルは、既存のベンチマークデータセットに対してわずかに改善されている。
モデルが数値リテラルを使用するのに実際に優れているのか、あるいはグラフ構造を利用するのに優れているのかは、不明である。
本稿では,数値リテラルを組み込んだLPモデルの評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T17:55:33Z) - DoubleMLDeep: Estimation of Causal Effects with Multimodal Data [7.014959855847738]
本稿では、因果推論と治療効果推定における非構造化マルチモーダルデータ、すなわちテキストと画像の利用について検討する。
本稿では,DML(Double Machine Learning)フレームワーク,特に部分線形モデルに適応したニューラルネットワークアーキテクチャを提案する。
本論文のさらなる貢献は、因果効果推定の性能評価に使用できる半合成データセットを生成するための新しい手法である。
論文 参考訳(メタデータ) (2024-02-01T21:34:34Z) - Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。
ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。
第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文 参考訳(メタデータ) (2022-11-23T00:04:57Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Data-to-text Generation with Variational Sequential Planning [74.3955521225497]
非言語的な入力からテキスト出力を生成することを目的としたデータ・ツー・テキスト生成の課題について考察する。
協調的かつ有意義な方法で高レベルの情報を整理する責任を負う計画要素を付加したニューラルモデルを提案する。
我々は、計画と生成のステップをインターリーブしながら、構造化された変動モデルで逐次、潜在計画を推測する。
論文 参考訳(メタデータ) (2022-02-28T13:17:59Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。