論文の概要: A Comprehensive Evaluation Framework for Synthetic Trip Data Generation in Public Transport
- arxiv url: http://arxiv.org/abs/2510.24375v1
- Date: Tue, 28 Oct 2025 12:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.120664
- Title: A Comprehensive Evaluation Framework for Synthetic Trip Data Generation in Public Transport
- Title(参考訳): 公共交通機関における合成トリップデータ生成のための総合的評価フレームワーク
- Authors: Yuanyuan Wu, Zhenlin Qin, Zhenliang Ma,
- Abstract要約: 合成データは、公共交通機関の研究でスマートカードデータを使用する際のプライバシーとアクセシビリティの課題に対して、有望な解決策を提供する。
本稿では,3つの相補的次元と3つの階層的レベルにまたがる合成旅行データを体系的に評価する枠組みを提案する。
結果として、合成データは本質的にプライバシを保証せず、"ワンサイズフィットオール"モデルは存在しないことが示される。
- 参考スコア(独自算出の注目度): 7.409483754602669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data offers a promising solution to the privacy and accessibility challenges of using smart card data in public transport research. Despite rapid progress in generative modeling, there is limited attention to comprehensive evaluation, leaving unclear how reliable, safe, and useful synthetic data truly are. Existing evaluations remain fragmented, typically limited to population-level representativeness or record-level privacy, without considering group-level variations or task-specific utility. To address this gap, we propose a Representativeness-Privacy-Utility (RPU) framework that systematically evaluates synthetic trip data across three complementary dimensions and three hierarchical levels (record, group, population). The framework integrates a consistent set of metrics to quantify similarity, disclosure risk, and practical usefulness, enabling transparent and balanced assessment of synthetic data quality. We apply the framework to benchmark twelve representative generation methods, spanning conventional statistical models, deep generative networks, and privacy-enhanced variants. Results show that synthetic data do not inherently guarantee privacy and there is no "one-size-fits-all" model, the trade-off between privacy and representativeness/utility is obvious. Conditional Tabular generative adversarial network (CTGAN) provide the most balanced trade-off and is suggested for practical applications. The RPU framework provides a systematic and reproducible basis for researchers and practitioners to compare synthetic data generation techniques and select appropriate methods in public transport applications.
- Abstract(参考訳): 合成データは、公共交通機関の研究でスマートカードデータを使用する際のプライバシーとアクセシビリティの課題に対して、有望な解決策を提供する。
生成的モデリングの急速な進歩にもかかわらず、包括的な評価には限定的な注意が払われており、どれほど信頼性があり、安全で有用な合成データが本当に有用であるかははっきりしないままである。
既存の評価は、グループレベルのバリエーションやタスク固有のユーティリティを考慮せずに、人口レベルの代表性や記録レベルのプライバシに制限されている。
このギャップに対処するために,3つの相補次元と3つの階層レベル(記録,グループ,人口)にわたる合成旅行データを体系的に評価する,代表性・職業・ユーティリティ(RPU)フレームワークを提案する。
このフレームワークは、一貫したメトリクスのセットを統合して、類似性、開示リスク、実用的な有用性を定量化し、合成データ品質の透明性とバランスの取れた評価を可能にする。
本フレームワークは,従来の統計モデル,深層生成ネットワーク,およびプライバシ強化された変種を対象とする,12種類の代表生成手法のベンチマークに応用する。
結果として、合成データは本質的にプライバシを保証せず、"ワンサイズフィット"モデルは存在しないことが示され、プライバシと代表性/ユーティリティのトレードオフは明らかである。
条件付きタブラリ生成対向ネットワーク(CTGAN)は、最もバランスのとれたトレードオフを提供し、実用的な用途に提案する。
RPUフレームワークは、研究者や実践者が合成データ生成技術を比較し、公共交通機関のアプリケーションで適切な方法を選択するために、体系的で再現可能な基盤を提供する。
関連論文リスト
- A Style-Based Profiling Framework for Quantifying the Synthetic-to-Real Gap in Autonomous Driving Datasets [9.788200709163064]
本稿では,合成データセットと実画像データセットの両方に基づくスタイルプロファイルを特徴付けるためのプロファイル抽出と発見フレームワークを提案する。
本フレームワークは,グラム行列に基づくスタイル抽出と,クラス内コンパクト性とクラス間分離に最適化されたメトリック学習を組み合わせて,スタイル埋め込みを抽出する。
論文 参考訳(メタデータ) (2025-10-11T13:09:41Z) - Opinion: Revisiting synthetic data classifications from a privacy perspective [42.12937192948916]
合成データは、AI開発の増大するデータ要求を満たすための費用対効果のソリューションとして浮上している。
従来の合成データ型の分類は、合成データを生成するための絶え間なく増加する手法を反映していない。
我々は、プライバシーの観点をよりよく反映した、合成データ型をグループ化する、別のアプローチを例に挙げる。
論文 参考訳(メタデータ) (2025-03-05T13:54:13Z) - Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。
我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文 参考訳(メタデータ) (2024-12-02T11:12:01Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Holdout-Based Fidelity and Privacy Assessment of Mixed-Type Synthetic
Data [0.0]
aiベースのデータ合成はここ数年で急速に進歩しており、プライバシを尊重するデータ共有を可能にするという約束がますます認識されている。
我々は,合成データソリューションの信頼性とプライバシリスクを定量化するための,ホールドアウトに基づく実証的評価フレームワークを紹介し,実証する。
論文 参考訳(メタデータ) (2021-04-01T17:30:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。