論文の概要: Generating synthetic transactional profiles
- arxiv url: http://arxiv.org/abs/2111.01531v1
- Date: Thu, 28 Oct 2021 18:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-07 11:08:22.956656
- Title: Generating synthetic transactional profiles
- Title(参考訳): 合成トランザクションプロファイルの生成
- Authors: Hadrien Lautraite, Patrick Mesana
- Abstract要約: 本稿では,機械学習技術を用いて,合成トランザクショナルプロファイルを生成する。
筆者らは,銀行業界が原データと合成データの両方で用いている共通洞察を計算し,データの有用性を測定した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Financial institutions use clients' payment transactions in numerous banking
applications. Transactions are very personal and rich in behavioural patterns,
often unique to individuals, which make them equivalent to personally
identifiable information in some cases. In this paper, we generate synthetic
transactional profiles using machine learning techniques with the goal to
preserve both data utility and privacy. A challenge we faced was to deal with
sparse vectors due to the few spending categories a client uses compared to all
the ones available. We measured data utility by calculating common insights
used by the banking industry on both the original and the synthetic data-set.
Our approach shows that neural network models can generate valuable synthetic
data in such context. Finally, we tried privacy-preserving techniques and
observed its effect on models' performances.
- Abstract(参考訳): 金融機関は、多数の銀行アプリケーションで顧客の支払いトランザクションを使用する。
トランザクションは非常に個人的であり、行動パターンに富み、しばしば個人特有のものであり、場合によっては個人を特定する情報と同等である。
本稿では,データユーティリティとプライバシの両立を目標として,機械学習技術を用いて合成トランザクションプロファイルを作成する。
私たちが直面した課題は、クライアントが利用可能なすべてのものに比較して使用する支出カテゴリが少なからぬため、スパースベクターに対処することでした。
原データと合成データの両方で、銀行業界が使用する共通洞察を計算し、データユーティリティを測定した。
我々のアプローチは、ニューラルネットワークモデルがそのような文脈で貴重な合成データを生成できることを示します。
最後に,プライバシ保護手法を試行し,モデルの性能への影響を調べた。
関連論文リスト
- Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。
データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。
プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文 参考訳(メタデータ) (2024-11-04T06:32:48Z) - A Simple Baseline for Predicting Events with Auto-Regressive Tabular Transformers [70.20477771578824]
イベント予測への既存のアプローチには、タイムアウェアな位置埋め込み、学習行とフィールドエンコーディング、クラス不均衡に対処するオーバーサンプリング方法などがある。
基本位置埋め込みと因果言語モデリングの目的を持つ標準自己回帰型LPM変換器を用いて,単純だが柔軟なベースラインを提案する。
私たちのベースラインは、一般的なデータセットで既存のアプローチよりも優れており、さまざまなユースケースに使用することができます。
論文 参考訳(メタデータ) (2024-10-14T15:59:16Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Privacy-Preserving Financial Anomaly Detection via Federated Learning & Multi-Party Computation [17.314619091307343]
本稿では、金融機関が高精度な異常検出モデルを共同で訓練できるプライバシー保護フレームワークについて述べる。
当社のソリューションは,顧客データのプライバシを保ちながら,高精度な異常検出モデルをトレーニングすることを可能にする。
論文 参考訳(メタデータ) (2023-10-06T19:16:41Z) - Synthetic Demographic Data Generation for Card Fraud Detection Using
GANs [4.651915393462367]
我々は、人口統計データ生成に使用されるDGGANと呼ばれるディープラーニングジェネレーティブ・アドバイサル・ネットワーク(GAN)を構築している。
本モデルでは,モデルトレーニング中にサンプルを生成し,クラス不均衡問題を克服することの重要性を見出した。
論文 参考訳(メタデータ) (2023-06-29T17:08:57Z) - Towards Generalizable Data Protection With Transferable Unlearnable
Examples [50.628011208660645]
本稿では、転送不可能な例を生成することによって、新しい一般化可能なデータ保護手法を提案する。
私たちの知る限りでは、これはデータ分散の観点からデータのプライバシを調べる最初のソリューションです。
論文 参考訳(メタデータ) (2023-05-18T04:17:01Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Bias Mitigated Learning from Differentially Private Synthetic Data: A
Cautionary Tale [13.881022208028751]
バイアスは、合成データ分布が実データ分布の不整合推定であるため、すべての解析に影響を与える可能性がある。
民営化確率比を用いた複数のバイアス緩和戦略を提案する。
バイアス緩和は、合成データの一般的な応用に、シンプルで効果的なプライバシー準拠の強化をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T19:56:44Z) - Differentially Private Synthetic Data: Applied Evaluations and
Enhancements [4.749807065324706]
異なるプライベートデータ合成は、個人の詳細を露出から保護する。
データ合成のための4つの差分私的生成対向ネットワークの評価を行った。
合成データを生成するためのアンサンブルに基づくモデリング手法であるQUAILを提案する。
論文 参考訳(メタデータ) (2020-11-11T04:03:08Z) - Super-App Behavioral Patterns in Credit Risk Models: Financial,
Statistical and Regulatory Implications [110.54266632357673]
従来の官僚データとは対照的に、アプリベースのマーケットプレースから派生した代替データが信用スコアモデルに与える影響を提示する。
2つの国にまたがって検証した結果、これらの新たなデータソースは、低体重者や若年者における金融行動を予測するのに特に有用であることが示された。
論文 参考訳(メタデータ) (2020-05-09T01:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。