論文の概要: Cross-table Synthetic Tabular Data Detection
- arxiv url: http://arxiv.org/abs/2412.13227v1
- Date: Tue, 17 Dec 2024 10:24:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:46:51.94241
- Title: Cross-table Synthetic Tabular Data Detection
- Title(参考訳): クロステーブルな合成語彙データ検出
- Authors: G. Charbel N. Kindji, Lina Maria Rojas-Barahona, Elisa Fromont, Tanguy Urvoy,
- Abstract要約: 本研究では, 合成表データの「野生」を, 異なる生成物, ドメイン, テーブル形式で確実に識別できるかどうかについて検討した。
3つのクロステーブルベースライン検出器と4つの異なる評価プロトコルを提案する。
極めて予備的な結果から,クロステーブル適応は難しい課題であることが明らかとなった。
- 参考スコア(独自算出の注目度): 2.5168710814072894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting synthetic tabular data is essential to prevent the distribution of false or manipulated datasets that could compromise data-driven decision-making. This study explores whether synthetic tabular data can be reliably identified ''in the wild''-meaning across different generators, domains, and table formats. This challenge is unique to tabular data, where structures (such as number of columns, data types, and formats) can vary widely from one table to another. We propose three cross-table baseline detectors and four distinct evaluation protocols, each corresponding to a different level of ''wildness''. Our very preliminary results confirm that cross-table adaptation is a challenging task.
- Abstract(参考訳): 合成表データの検出は、データ駆動意思決定を損なう可能性のある、偽または操作されたデータセットの配布を防止するために不可欠である。
本研究では, 合成表データの「野生」を, 異なる生成物, ドメイン, テーブル形式で確実に識別できるかどうかについて検討した。
この課題は表データに特有のものであり、構造(列数、データ型、フォーマットなど)はテーブルによって大きく異なる。
本稿では,3つのクロステーブルベースライン検出器と4つの異なる評価プロトコルを提案する。
極めて予備的な結果から,クロステーブル適応は難しい課題であることが明らかとなった。
関連論文リスト
- Datum-wise Transformer for Synthetic Tabular Data Detection in the Wild [2.5168710814072894]
トランスフォーマーアーキテクチャを導入し,既存モデルよりも優れた性能を示す。
また,本モデルの有効性を高めるため,ドメイン適応手法の適用について検討する。
論文 参考訳(メタデータ) (2025-04-10T08:01:34Z) - Synthetic Tabular Data Detection In the Wild [2.5168710814072894]
テーブルの制限されたセットでのクロステーブル学習は、単純な事前処理方式であっても可能である。
これは、この問題に対処するために高度な符号化方式が必要であることを示唆している。
論文 参考訳(メタデータ) (2025-03-03T07:53:16Z) - Geodesic Flow Kernels for Semi-Supervised Learning on Mixed-Variable Tabular Dataset [31.23513370504603]
GFTabは、Mixed-Variable Tabularデータセットフレームワークの半教師付き学習である。
GFTabには3つの重要な革新がある: 1) 連続変数と分類変数の異なる性質に合わせた変数固有の汚職法、2) 腐敗した入力間の幾何学的変化を捉える測地学的フローカーネルに基づく類似度尺度、3) 利用可能なラベル付きデータから階層的関係を利用する木に基づく埋め込み。
我々の実験結果によると、GFTabは、多くのデータセット、特にラベル付きデータに制限された設定において、既存のML/DLモデルよりも優れています。
論文 参考訳(メタデータ) (2024-12-17T12:47:53Z) - Fully Test-time Adaptation for Tabular Data [48.67303250592189]
本稿では,FTTA法で予測のラベル分布を頑健に最適化できる,タブラルデータに対する完全テスト時間適応を提案する。
我々は6つのベンチマークデータセットに関する総合的な実験を行い、3つの指標を用いて評価した。
論文 参考訳(メタデータ) (2024-12-14T15:49:53Z) - Diffusion-nested Auto-Regressive Synthesis of Heterogeneous Tabular Data [56.48119008663155]
本稿では,これらの問題に対処する拡散型自己回帰モデル(TabDAR)を提案する。
異なる特性を持つ10のデータセットに対して広範な実験を行い、提案したTabDARは3つの異なる側面にわたる8つの指標に対して、従来の最先端手法を18%から45%上回っている。
論文 参考訳(メタデータ) (2024-10-28T20:49:26Z) - TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Privately generating tabular data using language models [80.67328256105891]
テーブルからプライベートに合成データを生成することは、プライバシ優先の世界の重要なブロックである。
本稿では,テーブル内の各行を文として扱い,差分プライバシーを持つ言語モデルを訓練する簡単な手法を提案し,検討する。
論文 参考訳(メタデータ) (2023-06-07T21:53:14Z) - Dynamic Kernel Matching for Non-conforming Data: A Case Study of T-cell
Receptor Datasets [0.0]
既存の統計分類器を変形させないデータを扱う手法について述べる。
i) 疾患抗原をラベル付けしたT細胞受容体 (TCR) 配列のデータセット, (ii) 患者サイトメガロウイルス (CMV) セロスタスをラベル付けしたTCRレパートリーのデータセットについて検討した。
論文 参考訳(メタデータ) (2021-03-18T18:39:14Z) - CTAB-GAN: Effective Table Data Synthesizing [7.336728307626645]
多様なデータ型をモデル化できる条件付きテーブルGANアーキテクチャCTAB-GANを開発。
CTAB-GANは3種類の変数の実際のデータに非常に似ており、5つの機械学習アルゴリズムの精度が17%向上したことを示しています。
論文 参考訳(メタデータ) (2021-02-16T18:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。