Fugu-MT 論文翻訳(概要): FinDiff: Diffusion Models for Financial Tabular Data Generation

論文の概要: FinDiff: Diffusion Models for Financial Tabular Data Generation

arxiv url: http://arxiv.org/abs/2309.01472v1
Date: Mon, 4 Sep 2023 09:30:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 19:14:28.024002
Title: FinDiff: Diffusion Models for Financial Tabular Data Generation
Title（参考訳）: FinDiff:金融タブラリデータ生成のための拡散モデル
Authors: Timur Sattarov, Marco Schreyer, Damian Borth
Abstract要約: FinDiffは、さまざまな規制下流タスクのための現実世界の財務データを生成するために設計された拡散モデルである。 3つの実世界の財務データセットを用いて、最先端のベースラインモデルに対して評価される。
参考スコア（独自算出の注目度）: 5.824064631226058
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The sharing of microdata, such as fund holdings and derivative instruments, by regulatory institutions presents a unique challenge due to strict data confidentiality and privacy regulations. These challenges often hinder the ability of both academics and practitioners to conduct collaborative research effectively. The emergence of generative models, particularly diffusion models, capable of synthesizing data mimicking the underlying distributions of real-world data presents a compelling solution. This work introduces 'FinDiff', a diffusion model designed to generate real-world financial tabular data for a variety of regulatory downstream tasks, for example economic scenario modeling, stress tests, and fraud detection. The model uses embedding encodings to model mixed modality financial data, comprising both categorical and numeric attributes. The performance of FinDiff in generating synthetic tabular financial data is evaluated against state-of-the-art baseline models using three real-world financial datasets (including two publicly available datasets and one proprietary dataset). Empirical results demonstrate that FinDiff excels in generating synthetic tabular financial data with high fidelity, privacy, and utility.
Abstract（参考訳）: 規制機関によるファンドホールディングスやデリバティブ・インスツルメンツなどのマイクロデータの共有は、厳密なデータの機密性やプライバシー規制のために、ユニークな課題となっている。これらの課題は、しばしば学者と実践者が協力研究を効果的に行う能力を妨げる。生成モデル(特に拡散モデル)の出現は、実世界のデータの基盤となる分布を模倣するデータを合成することを可能にする。この研究は、経済シナリオモデリング、ストレステスト、不正検出など、さまざまな規制下流タスクのための現実の金融表データを生成するために設計された拡散モデルである「FinDiff」を紹介する。このモデルは埋め込みエンコーディングを使用して、カテゴリー属性と数値属性の両方からなる混合モダリティファイナンシャルデータをモデル化する。合成表型財務データの生成におけるFinDiffの性能は、3つの実世界の財務データセット(公開データセットと1つのプロプライエタリデータセットを含む)を使用して最先端のベースラインモデルに対して評価される。実証的な結果は、FinDiffが高忠実性、プライバシー、実用性を備えた合成表形式の財務データを生成するのに優れていることを示している。

関連論文リスト

FairFinGAN: Fairness-aware Synthetic Financial Data Generation [0.3544442162078764]
保護属性に対するバイアスを緩和しつつ、合成財務データを生成するために設計されたWGANベースのフレームワークであるFairFinGANを提案する。提案手法を実世界の5つの財務データセット上で評価し,既存のGANベースのデータ生成手法と比較した。実験結果から,本手法はデータの有用性を著しく損なうことなく,優れた公正度を達成できることが示唆された。
論文参考訳（メタデータ） (2026-03-05T16:09:19Z)
Deep Generative Models for Synthetic Financial Data: Applications to Portfolio and Risk Modeling [0.0]
シンセティック・ファイナンス・データ(英語版)は、量的ファイナンスにおける経験的な研究をしばしば制限するプライバシー、アクセシビリティ、課題に対する実践的な解決策を提供する。本稿では,時系列生成支援ネットワーク(TimeGAN)と変分オートエンコーダ(VAE)を用いて,リアルな合成金融リターン生成を行う。
論文参考訳（メタデータ） (2025-12-25T22:28:32Z)
LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。 LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。 LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-04T00:47:52Z)
Class-Imbalanced-Aware Adaptive Dataset Distillation for Scalable Pretrained Model on Credit Scoring [10.737033782376905]
金融データセット上での大規模事前学習モデルの適用を拡大するための新しいフレームワークを提案する。我々は,データセット蒸留における不均衡認識技術を統合することにより,財務データセットの性能が向上した。
論文参考訳（メタデータ） (2025-01-18T06:59:36Z)
Beyond Tree Models: A Hybrid Model of KAN and gMLP for Large-Scale Financial Tabular Data [28.34587057844627]
TKGMLPは、浅いコルモゴロフ・アーノルドネットワークとGated Multilayer Perceptronを組み合わせた表型データのためのハイブリッドネットワークである。我々は、TKGMLPを現実の信用スコアデータセットで検証し、最先端の結果を達成し、現在のベンチマークより優れています。本稿では,財務データセットにおける数値的特徴の優位性に対処するために,数値的データのための新しい特徴符号化手法を提案する。
論文参考訳（メタデータ） (2024-12-03T02:38:07Z)
TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文参考訳（メタデータ） (2024-06-05T20:19:09Z)
An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文参考訳（メタデータ） (2024-04-12T12:31:06Z)
Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文参考訳（メタデータ） (2024-04-11T06:34:17Z)
FinLLMs: A Framework for Financial Reasoning Dataset Generation with Large Language Models [12.367548338910744]
FinLLMs は,大規模言語モデルを用いた共通財務式に基づく財務質問応答データを生成する手法である。本研究では、FinLLMsによって生成された合成データが、金融分野における大規模数値推論モデルの性能を効果的に向上することを示した。
論文参考訳（メタデータ） (2024-01-19T15:09:39Z)
FedTabDiff: Federated Learning of Diffusion Probabilistic Models for Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。 FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文参考訳（メタデータ） (2024-01-11T21:17:50Z)
REFinD: Relation Extraction Financial Dataset [7.207699035400335]
提案するREFinDは,$sim$29Kのインスタンスと8種類のエンティティペア間の22のリレーションを持つ,最初の大規模アノテートされた関係データセットである。様々な最先端ディープラーニングモデルが,数値推論,関係性,方向性のあいまいさに悩まされていることを観察した。
論文参考訳（メタデータ） (2023-05-22T22:40:11Z)
FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文参考訳（メタデータ） (2021-09-01T00:08:14Z)
Sensitive Data Detection with High-Throughput Neural Network Models for Financial Institutions [3.4161707164978137]
内部および合成データセットを用いて,NPI(Nonpublic Personally Identible)情報を検出する様々な方法を評価する。 CNN, LSTM, BiLSTM-CRF, CNN-CRFなどの特性レベルのニューラルネットワークモデルを2つの予測タスクで検討した。
論文参考訳（メタデータ） (2020-12-17T14:11:03Z)
CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文参考訳（メタデータ） (2020-05-21T21:44:21Z)
Gaussian process imputation of multiple financial series [71.08576457371433]
金融指標、株価、為替レートなどの複数の時系列は、市場が潜んでいる状態に依存しているため、強く結びついている。金融時系列間の関係を多出力ガウスプロセスでモデル化することで学習することに注力する。
論文参考訳（メタデータ） (2020-02-11T19:18:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。