論文の概要: FinDiff: Diffusion Models for Financial Tabular Data Generation
- arxiv url: http://arxiv.org/abs/2309.01472v1
- Date: Mon, 4 Sep 2023 09:30:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 19:14:28.024002
- Title: FinDiff: Diffusion Models for Financial Tabular Data Generation
- Title(参考訳): FinDiff:金融タブラリデータ生成のための拡散モデル
- Authors: Timur Sattarov, Marco Schreyer, Damian Borth
- Abstract要約: FinDiffは、さまざまな規制下流タスクのための現実世界の財務データを生成するために設計された拡散モデルである。
3つの実世界の財務データセットを用いて、最先端のベースラインモデルに対して評価される。
- 参考スコア(独自算出の注目度): 5.824064631226058
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The sharing of microdata, such as fund holdings and derivative instruments,
by regulatory institutions presents a unique challenge due to strict data
confidentiality and privacy regulations. These challenges often hinder the
ability of both academics and practitioners to conduct collaborative research
effectively. The emergence of generative models, particularly diffusion models,
capable of synthesizing data mimicking the underlying distributions of
real-world data presents a compelling solution. This work introduces 'FinDiff',
a diffusion model designed to generate real-world financial tabular data for a
variety of regulatory downstream tasks, for example economic scenario modeling,
stress tests, and fraud detection. The model uses embedding encodings to model
mixed modality financial data, comprising both categorical and numeric
attributes. The performance of FinDiff in generating synthetic tabular
financial data is evaluated against state-of-the-art baseline models using
three real-world financial datasets (including two publicly available datasets
and one proprietary dataset). Empirical results demonstrate that FinDiff excels
in generating synthetic tabular financial data with high fidelity, privacy, and
utility.
- Abstract(参考訳): 規制機関によるファンドホールディングスやデリバティブ・インスツルメンツなどのマイクロデータの共有は、厳密なデータの機密性やプライバシー規制のために、ユニークな課題となっている。
これらの課題は、しばしば学者と実践者が協力研究を効果的に行う能力を妨げる。
生成モデル(特に拡散モデル)の出現は、実世界のデータの基盤となる分布を模倣するデータを合成することを可能にする。
この研究は、経済シナリオモデリング、ストレステスト、不正検出など、さまざまな規制下流タスクのための現実の金融表データを生成するために設計された拡散モデルである「FinDiff」を紹介する。
このモデルは埋め込みエンコーディングを使用して、カテゴリー属性と数値属性の両方からなる混合モダリティファイナンシャルデータをモデル化する。
合成表型財務データの生成におけるFinDiffの性能は、3つの実世界の財務データセット(公開データセットと1つのプロプライエタリデータセットを含む)を使用して最先端のベースラインモデルに対して評価される。
実証的な結果は、FinDiffが高忠実性、プライバシー、実用性を備えた合成表形式の財務データを生成するのに優れていることを示している。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - FinLLMs: A Framework for Financial Reasoning Dataset Generation with
Large Language Models [12.367548338910744]
FinLLMs は,大規模言語モデルを用いた共通財務式に基づく財務質問応答データを生成する手法である。
本研究では、FinLLMsによって生成された合成データが、金融分野における大規模数値推論モデルの性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-01-19T15:09:39Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - REFinD: Relation Extraction Financial Dataset [7.207699035400335]
提案するREFinDは,$sim$29Kのインスタンスと8種類のエンティティペア間の22のリレーションを持つ,最初の大規模アノテートされた関係データセットである。
様々な最先端ディープラーニングモデルが,数値推論,関係性,方向性のあいまいさに悩まされていることを観察した。
論文 参考訳(メタデータ) (2023-05-22T22:40:11Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z) - Sensitive Data Detection with High-Throughput Neural Network Models for
Financial Institutions [3.4161707164978137]
内部および合成データセットを用いて,NPI(Nonpublic Personally Identible)情報を検出する様々な方法を評価する。
CNN, LSTM, BiLSTM-CRF, CNN-CRFなどの特性レベルのニューラルネットワークモデルを2つの予測タスクで検討した。
論文 参考訳(メタデータ) (2020-12-17T14:11:03Z) - CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。
実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文 参考訳(メタデータ) (2020-05-21T21:44:21Z) - Gaussian process imputation of multiple financial series [71.08576457371433]
金融指標、株価、為替レートなどの複数の時系列は、市場が潜んでいる状態に依存しているため、強く結びついている。
金融時系列間の関係を多出力ガウスプロセスでモデル化することで学習することに注力する。
論文 参考訳(メタデータ) (2020-02-11T19:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。