論文の概要: UTOPIA: Unlearnable Tabular Data via Decoupled Shortcut Embedding
- arxiv url: http://arxiv.org/abs/2602.07358v1
- Date: Sat, 07 Feb 2026 04:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.583483
- Title: UTOPIA: Unlearnable Tabular Data via Decoupled Shortcut Embedding
- Title(参考訳): UTOPIA: 切り離されたショートカットの埋め込みによる未熟なタブラルデータ
- Authors: Jiaming He, Fuming Luo, Hongwei Li, Wenbo Jiang, Wenshu Fan, Zhenbo Shi, Xudong Jiang, Yi Yu,
- Abstract要約: 非学習不可能な例(UE)は、プライベートビジョンデータにおける不正なモデルトレーニングを防止するための実践的なメカニズムとして現れている。
汚染スペクトルがクリーンなセマンティックスペクトルを超過すると、証明不能が実現可能であることを示す。
提案するUnlearnable Tabular Data via DecOuPled Shortcut EmbeddIng (UTOPIA)は,特徴冗長性を利用して最適化を2つのチャネルに分離する。
- 参考スコア(独自算出の注目度): 29.54720707082683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlearnable examples (UE) have emerged as a practical mechanism to prevent unauthorized model training on private vision data, while extending this protection to tabular data is nontrivial. Tabular data in finance and healthcare is highly sensitive, yet existing UE methods transfer poorly because tabular features mix numerical and categorical constraints and exhibit saliency sparsity, with learning dominated by a few dimensions. Under a Spectral Dominance condition, we show certified unlearnability is feasible when the poison spectrum overwhelms the clean semantic spectrum. Guided by this, we propose Unlearnable Tabular Data via DecOuPled Shortcut EmbeddIng (UTOPIA), which exploits feature redundancy to decouple optimization into two channels: high saliency features for semantic obfuscation and low saliency redundant features for embedding a hyper correlated shortcut, yielding constraint-aware dominant shortcuts while preserving tabular validity. Extensive experiments across tabular datasets and models show UTOPIA drives unauthorized training toward near random performance, outperforming strong UE baselines and transferring well across architectures.
- Abstract(参考訳): 非学習不可能な例(UE)は、プライベートビジョンデータに対する不正なモデルトレーニングを防ぐための実用的なメカニズムとして現れ、この保護を表データに拡張するのは簡単ではない。
金融と医療のタブラルデータは非常に感度が高いが、既存のUEメソッドは数値的制約とカテゴリー的制約が混在し、学習が数次元で支配されるため、伝達が不十分である。
スペクトラル・ドミナンス条件下では, 汚染スペクトルがクリーンなセマンティック・スペクトルを圧倒した場合, 未学習性が確認される。
そこで我々は,DecOuPled Shortcut EmbeddIng (UTOPIA)によるUnlearnable Tabular Dataを提案する。これは2つのチャネルに最適化を分離するために特徴冗長性を利用する。
表形式のデータセットとモデルにわたる大規模な実験は、UTOPIAが無許可のトレーニングを、ほぼランダムなパフォーマンスに向けて進め、強力なUEベースラインを上回り、アーキテクチャ全体にわたってうまく移行していることを示している。
関連論文リスト
- CTTVAE: Latent Space Structuring for Conditional Tabular Data Generation on Imbalanced Datasets [0.0]
本稿では,2つの相補的機構を備えた条件変換器を用いたタブラル変分自動エンコーダであるCTTVAEを紹介する。
CTTVAE+TBSは、トレーニングを不安定にすることなく、より代表的で実用性に整ったサンプルを一貫して得る。
論文 参考訳(メタデータ) (2026-02-03T15:25:26Z) - Boosting Predictive Performance on Tabular Data through Data Augmentation with Latent-Space Flow-Based Diffusion [1.4035356761907611]
本稿では,マイノリティオーバサンプリングのための木駆動拡散法を提案する。
PCAForest、EmbedForest、AttentionForestの3つのバリエーションを紹介します。
最寄り距離比と最近距離記録によるプライバシー評価は、フォレスト拡散ベースラインと同等かそれ以上である。
論文 参考訳(メタデータ) (2025-11-20T17:28:32Z) - Crafting Imperceptible On-Manifold Adversarial Attacks for Tabular Data [38.89245780759371]
本稿では,混合入力変分オートエンコーダ(VAE)を用いた遅延空間摂動フレームワークを提案し,統計的に一貫した逆の例を生成する。
提案手法は,従来の入力空間攻撃と比較して,アウトレーラ率と一貫した性能を著しく低下させることを示す。
論文 参考訳(メタデータ) (2025-07-15T05:34:44Z) - Data Curation Matters: Model Collapse and Spurious Shift Performance Prediction from Training on Uncurated Text Embeddings [0.0]
未処理のテキスト埋め込み(TE)のトレーニングモデルは、モデル崩壊として知られる深刻な障害モードにつながる可能性がある。
データキュレーションのプロキシとしてTE品質の新しい視点を提供する。
これらの知見は、よりニュアンスなキュレーションの必要性と埋め込みに基づく表現の評価を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-22T11:01:41Z) - Provably Unlearnable Data Examples [27.24152626809928]
原文(投稿日:2012/09/19)へのリンク 未許可のモデルでは、共有データを学習不能にするための努力が続けられている。
本稿では、学習不能データセットのいわゆる$(q, eta)$-Learnabilityを認証するためのメカニズムを提案する。
認証の低い$(q, eta)$-Learnabilityは、データセットに対するより堅牢で効果的な保護を示している。
論文 参考訳(メタデータ) (2024-05-06T09:48:47Z) - On the Embedding Collapse when Scaling up Recommendation Models [53.66285358088788]
埋め込み崩壊現象をスケーラビリティの阻害とみなし、埋め込み行列は低次元の部分空間を占有する傾向にある。
本稿では,組込み集合固有の相互作用モジュールを組み込んで,多様性を持つ組込み集合を学習する,単純かつ効果的な組込み設計を提案する。
論文 参考訳(メタデータ) (2023-10-06T17:50:38Z) - What Can We Learn from Unlearnable Datasets? [107.12337511216228]
学習不可能なデータセットは、ディープニューラルネットワークの一般化を防ぐことによって、データのプライバシを保護する可能性がある。
学習不可能なデータセットでトレーニングされたニューラルネットワークは、一般化には役に立たない単純なルールであるショートカットのみを学ぶと広く信じられている。
これとは対照的に,ネットワークは高いテスト性能を期待できる有用な特徴を実際に学習することができ,画像保護が保証されていないことを示唆している。
論文 参考訳(メタデータ) (2023-05-30T17:41:35Z) - DELTA: Dynamic Embedding Learning with Truncated Conscious Attention for
CTR Prediction [61.68415731896613]
CTR(Click-Through Rate)予測は、製品とコンテンツの推奨において重要なタスクである。
本稿では,CTR予測のための動的埋め込み学習を実現するモデルを提案する。
論文 参考訳(メタデータ) (2023-05-03T12:34:45Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Confident Sinkhorn Allocation for Pseudo-Labeling [40.883130133661304]
半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。
本稿では,疑似ラベル作成における不確実性の役割を理論的に研究し,CSA(Confident Sinkhorn Allocation)を提案する。
CSAは、信頼度の高いサンプルのみへの最適な輸送を通して、最高の擬似ラベル割り当てを特定する。
論文 参考訳(メタデータ) (2022-06-13T02:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。