論文の概要: Synthetic Tabular Data Detection In the Wild
- arxiv url: http://arxiv.org/abs/2503.01937v1
- Date: Mon, 03 Mar 2025 07:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:27:17.767474
- Title: Synthetic Tabular Data Detection In the Wild
- Title(参考訳): 野生における合成語彙データ検出
- Authors: G. Charbel N. Kindji, Elisa Fromont, Lina Maria Rojas-Barahona, Tanguy Urvoy,
- Abstract要約: テーブルの制限されたセットでのクロステーブル学習は、単純な事前処理方式であっても可能である。
これは、この問題に対処するために高度な符号化方式が必要であることを示唆している。
- 参考スコア(独自算出の注目度): 2.5168710814072894
- License:
- Abstract: Detecting synthetic tabular data is essential to prevent the distribution of false or manipulated datasets that could compromise data-driven decision-making. This study explores whether synthetic tabular data can be reliably identified across different tables. This challenge is unique to tabular data, where structures (such as number of columns, data types, and formats) can vary widely from one table to another. We propose four table-agnostic detectors combined with simple preprocessing schemes that we evaluate on six evaluation protocols, with different levels of ''wildness''. Our results show that cross-table learning on a restricted set of tables is possible even with naive preprocessing schemes. They confirm however that cross-table transfer (i.e. deployment on a table that has not been seen before) is challenging. This suggests that sophisticated encoding schemes are required to handle this problem.
- Abstract(参考訳): 合成表データの検出は、データ駆動意思決定を損なう可能性のある、偽または操作されたデータセットの配布を防止するために不可欠である。
本研究は, 合成表データを異なる表間で確実に識別できるかどうかを考察する。
この課題は表データに特有のものであり、構造(列数、データ型、フォーマットなど)はテーブルによって大きく異なる。
本研究では,6つの評価プロトコルで評価する簡易な前処理手法と4つのテーブル非依存検出器を提案する。
この結果から,テーブルの制限された集合上でのクロステーブル学習は,単純な事前処理方式でも可能であることが示唆された。
しかし、彼らは、クロステーブル転送(つまり、これまで見たことのないテーブルへのデプロイメント)が困難であることを確認した。
これは、この問題に対処するために高度な符号化方式が必要であることを示唆している。
関連論文リスト
- Tab-Shapley: Identifying Top-k Tabular Data Quality Insights [7.666573679741346]
本研究では,データの異常な性質に対する各属性の寄与を定量化するために,Shapley値を用いた協調ゲーム理論に基づくフレームワークであるTab-Shapleyを紹介する。
シェープリー値の計算は通常指数時間を必要とするが、我々のゲームはクローズドフォームの解を認め、計算を効率的にすることを示した。
論文 参考訳(メタデータ) (2025-01-12T02:24:55Z) - Cross-table Synthetic Tabular Data Detection [2.5168710814072894]
本研究では, 合成表データの「野生」を, 異なる生成物, ドメイン, テーブル形式で確実に識別できるかどうかについて検討した。
3つのクロステーブルベースライン検出器と4つの異なる評価プロトコルを提案する。
極めて予備的な結果から,クロステーブル適応は難しい課題であることが明らかとなった。
論文 参考訳(メタデータ) (2024-12-17T10:24:00Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.169832192255956]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。
我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。
その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-28T17:28:53Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Binary Quantification and Dataset Shift: An Experimental Investigation [54.14283123210872]
量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:11:27Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - Table Detection in the Wild: A Novel Diverse Table Detection Dataset and
Method [1.3814823347690746]
テーブル検出のための大規模データセットを7万以上のサンプルで紹介する。
また、文書中のテーブル構造を検出する畳み込みニューラルネットワークを用いたベースライン結果も提示する。
論文 参考訳(メタデータ) (2022-08-31T14:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。