論文の概要: Datum-wise Transformer for Synthetic Tabular Data Detection in the Wild
- arxiv url: http://arxiv.org/abs/2504.08829v1
- Date: Thu, 10 Apr 2025 08:01:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:56:14.284941
- Title: Datum-wise Transformer for Synthetic Tabular Data Detection in the Wild
- Title(参考訳): 野生における合成語彙データ検出のためのデイタワイズ変換器
- Authors: G. Charbel N. Kindji, Elisa Fromont, Lina Maria Rojas-Barahona, Tanguy Urvoy,
- Abstract要約: トランスフォーマーアーキテクチャを導入し,既存モデルよりも優れた性能を示す。
また,本モデルの有効性を高めるため,ドメイン適応手法の適用について検討する。
- 参考スコア(独自算出の注目度): 2.5168710814072894
- License:
- Abstract: The growing power of generative models raises major concerns about the authenticity of published content. To address this problem, several synthetic content detection methods have been proposed for uniformly structured media such as image or text. However, little work has been done on the detection of synthetic tabular data, despite its importance in industry and government. This form of data is complex to handle due to the diversity of its structures: the number and types of the columns may vary wildly from one table to another. We tackle the tough problem of detecting synthetic tabular data ''in the wild'', i.e. when the model is deployed on table structures it has never seen before. We introduce a novel datum-wise transformer architecture and show that it outperforms existing models. Furthermore, we investigate the application of domain adaptation techniques to enhance the effectiveness of our model, thereby providing a more robust data-forgery detection solution.
- Abstract(参考訳): 生成モデルの力の増大は、出版コンテンツの信頼性に対する大きな懸念を提起する。
この問題に対処するために,画像やテキストなど一様に構造化されたメディアに対して,いくつかの合成コンテンツ検出手法が提案されている。
しかし、産業や政府において重要であるにもかかわらず、合成表状データの検出に関する研究はほとんど行われていない。
この形式のデータは、その構造が多様であるために扱うのが複雑であり、列の数と型は、あるテーブルから別のテーブルへと大きく変化する可能性がある。
我々は、合成表データの'in the wild'を検出するという難しい問題、すなわち、モデルがこれまで見たことのないテーブル構造にデプロイされたときに取り組む。
本稿では,新しいダタムワイドトランスフォーマーアーキテクチャを導入し,既存のモデルより優れていることを示す。
さらに,本モデルの有効性を高めるため,ドメイン適応手法の適用について検討し,より堅牢なデータ鍛造検出ソリューションを提供する。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Diffusion Models for Tabular Data Imputation and Synthetic Data Generation [3.667364190843767]
拡散モデルは、複雑なデータ分布をキャプチャできる強力な生成モデルとして登場した。
本稿では,3つの重要な拡張を導入した表データの拡散モデルを提案する。
コンディショニングアテンション機構は、条件と合成データの関係をキャプチャするモデルの能力を改善するように設計されている。
変換器層は条件(エンコーダ)や合成データ(デコーダ)内の相互作用をモデル化し、動的マスキングにより、欠落したデータ計算と合成データ生成タスクの両方を効率的に処理できる。
論文 参考訳(メタデータ) (2024-07-02T15:27:06Z) - Bridging Textual and Tabular Worlds for Fact Verification: A Lightweight, Attention-Based Model [34.1224836768324]
FEVEROUSは、事実抽出と検証タスクに焦点を当てた、ベンチマークおよび研究イニシアチブである。
本稿では,モダリティ変換の必要性を解消する,単純だが強力なモデルを提案する。
提案手法は,異なるデータ型間の遅延接続を効果的に利用することにより,包括的かつ信頼性の高い検証予測を実現する。
論文 参考訳(メタデータ) (2024-03-26T03:54:25Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Polynomial-based Self-Attention for Table Representation learning [23.651207486167518]
Transformersの重要なコンポーネントであるセルフアテンションは、過度にスムースな問題を引き起こす可能性がある。
そこで本研究では,行列ベースの自己アテンション層を元の自己アテンション層に代えて,新しい自己アテンション層を提案する。
提案する3つの表学習モデルを用いて実験を行った結果,この層が過度に平滑な問題を効果的に緩和することを示した。
論文 参考訳(メタデータ) (2023-12-12T21:49:26Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Language Models are Realistic Tabular Data Generators [15.851912974874116]
本稿では,GReaT (Generation of Realistic Tabular data) を提案する。
提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
論文 参考訳(メタデータ) (2022-10-12T15:03:28Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。