論文の概要: Robust Detection of Synthetic Tabular Data under Schema Variability
- arxiv url: http://arxiv.org/abs/2509.00092v1
- Date: Wed, 27 Aug 2025 13:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.071983
- Title: Robust Detection of Synthetic Tabular Data under Schema Variability
- Title(参考訳): スキーマ変動下における合成語彙データのロバスト検出
- Authors: G. Charbel N. Kindji, Elisa Fromont, Lina Maria Rojas-Barahona, Tanguy Urvoy,
- Abstract要約: これまでに公開された唯一のベースラインをはるかに上回る、新しいトランスフォーマーアーキテクチャを導入する。
テーブル適応成分を組み込むことで、モデルはさらに7つの精度ポイントを獲得し、強靭性を実証する。
- 参考スコア(独自算出の注目度): 2.855894241049707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of powerful generative models has sparked concerns over data authenticity. While detection methods have been extensively developed for images and text, the case of tabular data, despite its ubiquity, has been largely overlooked. Yet, detecting synthetic tabular data is especially challenging due to its heterogeneous structure and unseen formats at test time. We address the underexplored task of detecting synthetic tabular data in the wild, where tables have variable and previously unseen schemas. We introduce a novel datum-wise transformer architecture that significantly outperforms the only previously published baseline, improving both AUC and accuracy by 7 points. By incorporating a table-adaptation component, our model gains an additional 7 accuracy points, demonstrating enhanced robustness. This work provides the first strong evidence that detecting synthetic tabular data in real-world conditions is not only feasible, but can be done with high reliability.
- Abstract(参考訳): 強力な生成モデルの台頭は、データの信頼性に対する懸念を引き起こしている。
画像やテキストに対して大規模な検出手法が開発されているが、表形式のデータの場合、その有用性にもかかわらず、ほとんど見過ごされてはいない。
しかし、その不均一な構造とテスト時の見えないフォーマットのため、合成表データの検出は特に困難である。
テーブルが可変で、以前は見えなかったスキーマを持つ、野生の合成表データを検出するという、未調査の課題に対処する。
AUC と精度を 7 ポイント向上させる,新しいダタムワイドトランスフォーマーアーキテクチャを導入する。
テーブル適応成分を組み込むことで、モデルはさらに7つの精度ポイントを獲得し、強靭性を実証する。
この研究は、実世界の条件下で合成表データを検出することは実現可能であるだけでなく、高い信頼性で行うことができるという最初の強い証拠を提供する。
関連論文リスト
- Datum-wise Transformer for Synthetic Tabular Data Detection in the Wild [2.5168710814072894]
トランスフォーマーアーキテクチャを導入し,既存モデルよりも優れた性能を示す。
また,本モデルの有効性を高めるため,ドメイン適応手法の適用について検討する。
論文 参考訳(メタデータ) (2025-04-10T08:01:34Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Language Models are Realistic Tabular Data Generators [15.851912974874116]
本稿では,GReaT (Generation of Realistic Tabular data) を提案する。
提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
論文 参考訳(メタデータ) (2022-10-12T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。