論文の概要: FinDiff: Diffusion Models for Financial Tabular Data Generation
- arxiv url: http://arxiv.org/abs/2309.01472v1
- Date: Mon, 4 Sep 2023 09:30:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 19:14:28.024002
- Title: FinDiff: Diffusion Models for Financial Tabular Data Generation
- Title(参考訳): FinDiff:金融タブラリデータ生成のための拡散モデル
- Authors: Timur Sattarov, Marco Schreyer, Damian Borth
- Abstract要約: FinDiffは、さまざまな規制下流タスクのための現実世界の財務データを生成するために設計された拡散モデルである。
3つの実世界の財務データセットを用いて、最先端のベースラインモデルに対して評価される。
- 参考スコア(独自算出の注目度): 5.824064631226058
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The sharing of microdata, such as fund holdings and derivative instruments,
by regulatory institutions presents a unique challenge due to strict data
confidentiality and privacy regulations. These challenges often hinder the
ability of both academics and practitioners to conduct collaborative research
effectively. The emergence of generative models, particularly diffusion models,
capable of synthesizing data mimicking the underlying distributions of
real-world data presents a compelling solution. This work introduces 'FinDiff',
a diffusion model designed to generate real-world financial tabular data for a
variety of regulatory downstream tasks, for example economic scenario modeling,
stress tests, and fraud detection. The model uses embedding encodings to model
mixed modality financial data, comprising both categorical and numeric
attributes. The performance of FinDiff in generating synthetic tabular
financial data is evaluated against state-of-the-art baseline models using
three real-world financial datasets (including two publicly available datasets
and one proprietary dataset). Empirical results demonstrate that FinDiff excels
in generating synthetic tabular financial data with high fidelity, privacy, and
utility.
- Abstract(参考訳): 規制機関によるファンドホールディングスやデリバティブ・インスツルメンツなどのマイクロデータの共有は、厳密なデータの機密性やプライバシー規制のために、ユニークな課題となっている。
これらの課題は、しばしば学者と実践者が協力研究を効果的に行う能力を妨げる。
生成モデル(特に拡散モデル)の出現は、実世界のデータの基盤となる分布を模倣するデータを合成することを可能にする。
この研究は、経済シナリオモデリング、ストレステスト、不正検出など、さまざまな規制下流タスクのための現実の金融表データを生成するために設計された拡散モデルである「FinDiff」を紹介する。
このモデルは埋め込みエンコーディングを使用して、カテゴリー属性と数値属性の両方からなる混合モダリティファイナンシャルデータをモデル化する。
合成表型財務データの生成におけるFinDiffの性能は、3つの実世界の財務データセット(公開データセットと1つのプロプライエタリデータセットを含む)を使用して最先端のベースラインモデルに対して評価される。
実証的な結果は、FinDiffが高忠実性、プライバシー、実用性を備えた合成表形式の財務データを生成するのに優れていることを示している。
関連論文リスト
- Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - FinLLMs: A Framework for Financial Reasoning Dataset Generation with
Large Language Models [12.367548338910744]
FinLLMs は,大規模言語モデルを用いた共通財務式に基づく財務質問応答データを生成する手法である。
本研究では、FinLLMsによって生成された合成データが、金融分野における大規模数値推論モデルの性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-01-19T15:09:39Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - On the Stability of Iterative Retraining of Generative Models on their
own Data [56.153542044045224]
生成モデルの訓練がデータセット(実データと合成データの混合データ)の安定性に及ぼす影響について検討した。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - REFinD: Relation Extraction Financial Dataset [7.207699035400335]
提案するREFinDは,$sim$29Kのインスタンスと8種類のエンティティペア間の22のリレーションを持つ,最初の大規模アノテートされた関係データセットである。
様々な最先端ディープラーニングモデルが,数値推論,関係性,方向性のあいまいさに悩まされていることを観察した。
論文 参考訳(メタデータ) (2023-05-22T22:40:11Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z) - Sensitive Data Detection with High-Throughput Neural Network Models for
Financial Institutions [3.4161707164978137]
内部および合成データセットを用いて,NPI(Nonpublic Personally Identible)情報を検出する様々な方法を評価する。
CNN, LSTM, BiLSTM-CRF, CNN-CRFなどの特性レベルのニューラルネットワークモデルを2つの予測タスクで検討した。
論文 参考訳(メタデータ) (2020-12-17T14:11:03Z) - CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。
実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文 参考訳(メタデータ) (2020-05-21T21:44:21Z) - Gaussian process imputation of multiple financial series [71.08576457371433]
金融指標、株価、為替レートなどの複数の時系列は、市場が潜んでいる状態に依存しているため、強く結びついている。
金融時系列間の関係を多出力ガウスプロセスでモデル化することで学習することに注力する。
論文 参考訳(メタデータ) (2020-02-11T19:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。