論文の概要: V4FinBench: Benchmarking Tabular Foundation Models, LLMs, and Standard Methods on Corporate Bankruptcy Prediction
- arxiv url: http://arxiv.org/abs/2605.10896v2
- Date: Wed, 13 May 2026 09:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.867727
- Title: V4FinBench: Benchmarking Tabular Foundation Models, LLMs, and Standard Methods on Corporate Bankruptcy Prediction
- Title(参考訳): V4FinBench: 企業破産予測におけるタブラルファウンデーションモデル, LLM, 標準手法のベンチマーク
- Authors: Marcin Kostrzewa, Sebastian Tomczak, Roman Furman, Anna Poberezhna, Michał Furgała, Julia Farganus, Oleksii Furman, Maciej Zięba,
- Abstract要約: V4FinBenchは、Visegrd Group(V4)エコノミー(2006-2021)の100万以上の企業年次記録のベンチマークである。
V4FinBenchは、現実的なクラス不均衡の下でのメソッドの評価をサポートするように設計されており、正の率は0.19%から0.36%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Corporate bankruptcy prediction is a high-stakes financial task characterized by severe class imbalance and multi-horizon forecasting demands. Public datasets supporting it remain scarce and small: widely used free benchmarks contain between 6,000 and 80,000 company-year observations, while larger resources are behind subscription paywalls. To address this gap, we introduce V4FinBench, a benchmark of over one million company-year records from the Visegràd Group (V4) economies (2006-2021), with 131 financial and non-financial features, six prediction horizons, and a composite distress criterion jointly capturing solvency, profitability, and liquidity deterioration. V4FinBench is designed to support the evaluation of tabular and foundation-model methods under realistic class imbalance, with positive rates between 0.19% and 0.36%. We provide reference evaluations of standard tabular baselines, finetuned TabPFN, and QLoRA-finetuned Llama-3-8B. With imbalance-aware finetuning, TabPFN matches or exceeds gradient boosting at longer time horizons on both $F_1$-score and ROC-AUC. In contrast, Llama-3-8B trails gradient boosting on ROC-AUC at every horizon and is generally weaker on $F_1$-score, with the gap widening sharply beyond the immediate horizon. In an external evaluation on the American Bankruptcy Dataset, the V4FinBench-finetuned TabPFN checkpoint improves over vanilla TabPFN, suggesting that adaptation captures transferable financial-distress structure rather than only V4-specific patterns. V4FinBench is publicly released to support further evaluation and development of prediction methods on realistic financial data.
- Abstract(参考訳): 企業破産予測は、厳しい階級不均衡と多地点予測要求を特徴とする高い財務課題である。
広く使用されているフリーベンチマークには、6000から80,000の企業年次観測が含まれており、サブスクリプションペイウォールの裏側にあるリソースが大きい。
このギャップに対処するため、V4FinBenchは、ビセグラド・グループ(V4)経済(2006-2021)の100万以上の企業記録のベンチマークであり、131の金融・非金融的特徴、6つの予測的地平線、および、可溶性、収益性、流動性劣化を共同で把握する複合的救済基準である。
V4FinBenchは、現実的なクラス不均衡下での表形式および基礎モデルの評価をサポートするように設計されており、正の率は0.19%から0.36%である。
本研究では,標準的な表表ベースライン,微調整タブPFN,QLoRA微細化Llama-3-8Bの基準評価を行う。
不均衡を意識した微調整では、TabPFNは$F_1$-scoreとROC-AUCの両方でより長い時間で勾配を上昇させる。
対照的に、Llama-3-8B は ROC-AUC 上であらゆる地平線で勾配が上昇し、F_1$-score では通常より弱い。
The American Bankruptcy Dataset の外部評価では、V4FinBench-finetuned TabPFNチェックポイントはバニラTabPFNよりも改善されており、適応はV4固有のパターンだけでなく、転送可能なファイナンシャル・ディストレス構造をキャプチャすることを示している。
V4FinBenchは、現実的な財務データに対する予測手法のさらなる評価と開発を支援するために公開されている。
関連論文リスト
- IndiaFinBench: An Evaluation Benchmark for Large Language Model Performance on Indian Financial Regulatory Text [0.0]
IndiaFinBenchは、インドの金融規制文書上での大規模言語モデル(LLM)のパフォーマンスを評価するための、初めての公開評価ベンチマークである。
IndiaFinBenchは、インド証券取引委員会(SEC)とインド準備銀行(Reserve Bank of India)が入手した192件の文書から得られた406件の専門家による質問回答のペアと、このギャップに対処している。
ゼロショット条件下では、70.4%(Gemma 4 E4B)から89.7%(Gemini 2.5 Flash)の精度で12モデルを評価する。
論文 参考訳(メタデータ) (2026-04-21T10:04:49Z) - QuitoBench: A High-Quality Open Time Series Forecasting Benchmark [32.21290355342465]
時系列予測は、ファイナンス、ヘルスケア、クラウドコンピューティングにおいて重要である。
時系列予測のための状態バランスのベンチマークであるtextscQuitoBenchを紹介する。
論文 参考訳(メタデータ) (2026-03-27T02:24:34Z) - All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection [67.89888669159899]
RFC Benchは、現実的なニュースの下で財務的な誤情報に関する大規模な言語モデルを評価するためのベンチマークである。
このベンチマークでは、2つの補完的なタスクが定義されている。
論文 参考訳(メタデータ) (2026-01-07T18:18:28Z) - Are Foundation Models Useful for Bankruptcy Prediction? [0.0]
Llama-3.3-70B-InstructとTabPFNを用いた破産予測について検討した。
この課題に対して,基礎モデルの古典的機械学習ベースラインに対する最初の体系的比較を行った。
論文 参考訳(メタデータ) (2025-11-20T13:59:18Z) - LLM Output Drift: Cross-Provider Validation & Mitigation for Financial Workflows [0.5798758080057375]
非決定論的出力(アウトプットドリフト)は監査性と信頼を損なう。
規制された金融業務に関する5つのモデルアーキテクチャ間のドリフトを定量化する。
この発見は、より大きなモデルがプロダクションデプロイメントに普遍的に優れているという従来の仮定に挑戦する。
論文 参考訳(メタデータ) (2025-11-10T19:54:00Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning [82.7292329605713]
FinChainは、ファイナンスにおける検証可能なChain-of-Thought評価のために特別に設計された最初のベンチマークである。
12の金融ドメインに58のトピックがあり、それぞれがパラメータ化されたシンボリックテンプレートと実行可能なPythonトレースで表現されている。
FinChainは、多段階の財務推論における永続的な弱点を明らかにし、信頼できる、解釈可能な、検証可能な金融AIを開発するための基盤を提供する。
論文 参考訳(メタデータ) (2025-06-03T06:44:42Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - KodeXv0.1: A Family of State-of-the-Art Financial Large Language Models [41.94295877935867]
KodeXv0.1は、金融質問応答においてGPT-4を抜いた大規模な言語モデルのファミリーである。
我々は、決算報告や事業報告など、多くの公開財務文書を処理します。
論文 参考訳(メタデータ) (2024-09-13T16:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。