論文の概要: A Systematic Evaluation of Generative Models on Tabular Transportation Data
- arxiv url: http://arxiv.org/abs/2502.08856v1
- Date: Thu, 13 Feb 2025 00:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:47:47.143264
- Title: A Systematic Evaluation of Generative Models on Tabular Transportation Data
- Title(参考訳): タブラル交通データにおける生成モデルの体系的評価
- Authors: Chengen Wang, Alvaro Cardenas, Gurcan Comert, Murat Kantarcioglu,
- Abstract要約: ニューヨーク市のタクシーデータをケーススタディとして利用し、広く使われているデータ生成モデルの性能を評価する。
一般的に使用されるものの制限に対処するために、改良されたプライバシー基準を導入する。
この研究は、輸送のような新興ドメインのユニークな特徴を活かすために特別に調整された生成モデルを開発することの必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 14.566059618333155
- License:
- Abstract: The sharing of large-scale transportation data is beneficial for transportation planning and policymaking. However, it also raises significant security and privacy concerns, as the data may include identifiable personal information, such as individuals' home locations. To address these concerns, synthetic data generation based on real transportation data offers a promising solution that allows privacy protection while potentially preserving data utility. Although there are various synthetic data generation techniques, they are often not tailored to the unique characteristics of transportation data, such as the inherent structure of transportation networks formed by all trips in the datasets. In this paper, we use New York City taxi data as a case study to conduct a systematic evaluation of the performance of widely used tabular data generative models. In addition to traditional metrics such as distribution similarity, coverage, and privacy preservation, we propose a novel graph-based metric tailored specifically for transportation data. This metric evaluates the similarity between real and synthetic transportation networks, providing potentially deeper insights into their structural and functional alignment. We also introduced an improved privacy metric to address the limitations of the commonly-used one. Our experimental results reveal that existing tabular data generative models often fail to perform as consistently as claimed in the literature, particularly when applied to transportation data use cases. Furthermore, our novel graph metric reveals a significant gap between synthetic and real data. This work underscores the potential need to develop generative models specifically tailored to take advantage of the unique characteristics of emerging domains, such as transportation.
- Abstract(参考訳): 大規模交通データの共有は交通計画や政策立案に有用である。
しかし、個人情報を特定できる個人、例えば個人の自宅などを含む可能性があるため、セキュリティやプライバシーに関する懸念も大きく高まっている。
これらの懸念に対処するため、実際の交通データに基づく合成データ生成は、データユーティリティを保護しながらプライバシー保護を可能にする有望なソリューションを提供する。
様々な合成データ生成技術があるが、データセット内の全ての旅行によって形成される輸送ネットワークの固有の構造など、輸送データ特有の特徴に適合しないことが多い。
本稿では,ニューヨーク市のタクシーデータをケーススタディとして利用し,広く使用されている表型データ生成モデルの性能を体系的に評価する。
流通の類似性,カバレッジ,プライバシ保護といった従来の指標に加えて,交通データに特化したグラフベースの新しいメトリクスを提案する。
この測定基準は、実際の輸送ネットワークと合成輸送ネットワークの類似性を評価し、構造的および機能的アライメントについてより深い洞察を与える可能性がある。
また、一般的に使用されているものの制限に対処するために、改善されたプライバシー基準も導入しました。
実験結果から,既存の表型データ生成モデルは,特に輸送データ利用事例に適用した場合に,文献で主張されるように一貫して動作しないことが多いことが明らかとなった。
さらに,本手法では,合成データと実データの間に有意な差があることが判明した。
この研究は、輸送のような新興ドメインのユニークな特徴を活かすために特別に調整された生成モデルを開発する必要性を浮き彫りにしている。
関連論文リスト
- Contrastive Learning-Based privacy metrics in Tabular Synthetic Datasets [40.67424997797513]
合成データは、医療や金融などの分野におけるプライバシー強化技術(PET)として注目されている。
類似度に基づく手法は、トレーニングと合成データとの類似度のレベルを求めることを目的としている。
攻撃に基づく手法は、合成データセットに対する故意の攻撃を誘発する。
論文 参考訳(メタデータ) (2025-02-19T15:52:23Z) - Generative Models for Synthetic Urban Mobility Data: A Systematic Literature Review [44.99833362998488]
この体系的なレビューは、この異質で活発な研究分野の現状に関する構造化された比較概要を提供する。
レビューされたモデルの適用性に特に焦点が当てられている。
論文 参考訳(メタデータ) (2024-07-12T11:54:29Z) - Reconsidering utility: unveiling the limitations of synthetic mobility data generation algorithms in real-life scenarios [49.1574468325115]
実世界の応用性の観点から,5つの最先端合成手法の有用性を評価した。
我々は、GPS追跡タクシーのような細粒度都市の動きを符号化するいわゆる旅行データに焦点を当てる。
あるモデルは妥当な時間内にデータを生成することができず、別のモデルはマップマッチングの要件を満たすためにあまりに多くのジャンプを生成する。
論文 参考訳(メタデータ) (2024-07-03T16:08:05Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。
このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。
本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文 参考訳(メタデータ) (2023-11-05T18:59:31Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthetic Data: Methods, Use Cases, and Risks [11.413309528464632]
研究コミュニティと業界の両方で勢いを増す可能性のある選択肢は、代わりに合成データを共有することだ。
我々は、合成データについて穏やかに紹介し、そのユースケース、未適応のプライバシー問題、そしてその固有の制限を効果的なプライバシー強化技術として論じます。
論文 参考訳(メタデータ) (2023-03-01T16:35:33Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Generating synthetic mobility data for a realistic population with RNNs
to improve utility and privacy [3.3918638314432936]
本稿では, ディープリカレントニューラルネットワーク(RNN)を用いた合成モビリティデータ生成システムを提案する。
本システムは, 個体群分布を入力として, 対応する合成個体群の移動トレースを生成する。
生成したモビリティデータは,個々のレベルでの実際のデータから変化しながら,実際のデータの特徴を保っていることを示す。
論文 参考訳(メタデータ) (2022-01-04T13:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。