論文の概要: Cross-table Synthetic Tabular Data Detection
- arxiv url: http://arxiv.org/abs/2412.13227v1
- Date: Tue, 17 Dec 2024 10:24:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:33.546618
- Title: Cross-table Synthetic Tabular Data Detection
- Title(参考訳): クロステーブルな合成語彙データ検出
- Authors: G. Charbel N. Kindji, Lina Maria Rojas-Barahona, Elisa Fromont, Tanguy Urvoy,
- Abstract要約: 本研究では, 合成表データの「野生」を, 異なる生成物, ドメイン, テーブル形式で確実に識別できるかどうかについて検討した。
3つのクロステーブルベースライン検出器と4つの異なる評価プロトコルを提案する。
極めて予備的な結果から,クロステーブル適応は難しい課題であることが明らかとなった。
- 参考スコア(独自算出の注目度): 2.5168710814072894
- License:
- Abstract: Detecting synthetic tabular data is essential to prevent the distribution of false or manipulated datasets that could compromise data-driven decision-making. This study explores whether synthetic tabular data can be reliably identified ''in the wild''-meaning across different generators, domains, and table formats. This challenge is unique to tabular data, where structures (such as number of columns, data types, and formats) can vary widely from one table to another. We propose three cross-table baseline detectors and four distinct evaluation protocols, each corresponding to a different level of ''wildness''. Our very preliminary results confirm that cross-table adaptation is a challenging task.
- Abstract(参考訳): 合成表データの検出は、データ駆動意思決定を損なう可能性のある、偽または操作されたデータセットの配布を防止するために不可欠である。
本研究では, 合成表データの「野生」を, 異なる生成物, ドメイン, テーブル形式で確実に識別できるかどうかについて検討した。
この課題は表データに特有のものであり、構造(列数、データ型、フォーマットなど)はテーブルによって大きく異なる。
本稿では,3つのクロステーブルベースライン検出器と4つの異なる評価プロトコルを提案する。
極めて予備的な結果から,クロステーブル適応は難しい課題であることが明らかとなった。
関連論文リスト
- Fully Test-time Adaptation for Tabular Data [48.67303250592189]
本稿では,FTTA法で予測のラベル分布を頑健に最適化できる,タブラルデータに対する完全テスト時間適応を提案する。
我々は6つのベンチマークデータセットに関する総合的な実験を行い、3つの指標を用いて評価した。
論文 参考訳(メタデータ) (2024-12-14T15:49:53Z) - Diffusion-nested Auto-Regressive Synthesis of Heterogeneous Tabular Data [56.48119008663155]
本稿では,これらの問題に対処する拡散型自己回帰モデル(TabDAR)を提案する。
異なる特性を持つ10のデータセットに対して広範な実験を行い、提案したTabDARは3つの異なる側面にわたる8つの指標に対して、従来の最先端手法を18%から45%上回っている。
論文 参考訳(メタデータ) (2024-10-28T20:49:26Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Privately generating tabular data using language models [80.67328256105891]
テーブルからプライベートに合成データを生成することは、プライバシ優先の世界の重要なブロックである。
本稿では,テーブル内の各行を文として扱い,差分プライバシーを持つ言語モデルを訓練する簡単な手法を提案し,検討する。
論文 参考訳(メタデータ) (2023-06-07T21:53:14Z) - Dynamic Kernel Matching for Non-conforming Data: A Case Study of T-cell
Receptor Datasets [0.0]
既存の統計分類器を変形させないデータを扱う手法について述べる。
i) 疾患抗原をラベル付けしたT細胞受容体 (TCR) 配列のデータセット, (ii) 患者サイトメガロウイルス (CMV) セロスタスをラベル付けしたTCRレパートリーのデータセットについて検討した。
論文 参考訳(メタデータ) (2021-03-18T18:39:14Z) - CTAB-GAN: Effective Table Data Synthesizing [7.336728307626645]
多様なデータ型をモデル化できる条件付きテーブルGANアーキテクチャCTAB-GANを開発。
CTAB-GANは3種類の変数の実際のデータに非常に似ており、5つの機械学習アルゴリズムの精度が17%向上したことを示しています。
論文 参考訳(メタデータ) (2021-02-16T18:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。