論文の概要: UTOPIA: Unlearnable Tabular Data via Decoupled Shortcut Embedding
- arxiv url: http://arxiv.org/abs/2602.07358v2
- Date: Tue, 10 Feb 2026 10:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 15:31:42.929118
- Title: UTOPIA: Unlearnable Tabular Data via Decoupled Shortcut Embedding
- Title(参考訳): UTOPIA: 切り離されたショートカットの埋め込みによる未熟なタブラルデータ
- Authors: Jiaming He, Fuming Luo, Hongwei Li, Wenbo Jiang, Wenshu Fan, Zhenbo Shi, Xudong Jiang, Yi Yu,
- Abstract要約: 非学習不可能な例(UE)は、プライベートビジョンデータにおける不正なモデルトレーニングを防止するための実践的なメカニズムとして現れている。
汚染スペクトルがクリーンなセマンティックスペクトルを超過すると、証明不能が実現可能であることを示す。
提案するUnlearnable Tabular Data via DecOuPled Shortcut EmbeddIng (UTOPIA)は,特徴冗長性を利用して最適化を2つのチャネルに分離する。
- 参考スコア(独自算出の注目度): 29.54720707082683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlearnable examples (UE) have emerged as a practical mechanism to prevent unauthorized model training on private vision data, while extending this protection to tabular data is nontrivial. Tabular data in finance and healthcare is highly sensitive, yet existing UE methods transfer poorly because tabular features mix numerical and categorical constraints and exhibit saliency sparsity, with learning dominated by a few dimensions. Under a Spectral Dominance condition, we show certified unlearnability is feasible when the poison spectrum overwhelms the clean semantic spectrum. Guided by this, we propose Unlearnable Tabular Data via DecOuPled Shortcut EmbeddIng (UTOPIA), which exploits feature redundancy to decouple optimization into two channels: high saliency features for semantic obfuscation and low saliency redundant features for embedding a hyper correlated shortcut, yielding constraint-aware dominant shortcuts while preserving tabular validity. Extensive experiments across tabular datasets and models show UTOPIA drives unauthorized training toward near random performance, outperforming strong UE baselines and transferring well across architectures.
- Abstract(参考訳): 非学習不可能な例(UE)は、プライベートビジョンデータに対する不正なモデルトレーニングを防ぐための実用的なメカニズムとして現れ、この保護を表データに拡張するのは簡単ではない。
金融と医療のタブラルデータは非常に感度が高いが、既存のUEメソッドは数値的制約とカテゴリー的制約が混在し、学習が数次元で支配されるため、伝達が不十分である。
スペクトラル・ドミナンス条件下では, 汚染スペクトルがクリーンなセマンティック・スペクトルを圧倒した場合, 未学習性が確認される。
そこで我々は,DecOuPled Shortcut EmbeddIng (UTOPIA)によるUnlearnable Tabular Dataを提案する。これは2つのチャネルに最適化を分離するために特徴冗長性を利用する。
表形式のデータセットとモデルにわたる大規模な実験は、UTOPIAが無許可のトレーニングを、ほぼランダムなパフォーマンスに向けて進め、強力なUEベースラインを上回り、アーキテクチャ全体にわたってうまく移行していることを示している。
関連論文リスト
- CTTVAE: Latent Space Structuring for Conditional Tabular Data Generation on Imbalanced Datasets [0.0]
本稿では,2つの相補的機構を備えた条件変換器を用いたタブラル変分自動エンコーダであるCTTVAEを紹介する。
CTTVAE+TBSは、トレーニングを不安定にすることなく、より代表的で実用性に整ったサンプルを一貫して得る。
論文 参考訳(メタデータ) (2026-02-03T15:25:26Z) - Boosting Predictive Performance on Tabular Data through Data Augmentation with Latent-Space Flow-Based Diffusion [1.4035356761907611]
本稿では,マイノリティオーバサンプリングのための木駆動拡散法を提案する。
PCAForest、EmbedForest、AttentionForestの3つのバリエーションを紹介します。
最寄り距離比と最近距離記録によるプライバシー評価は、フォレスト拡散ベースラインと同等かそれ以上である。
論文 参考訳(メタデータ) (2025-11-20T17:28:32Z) - RFOD: Random Forest-based Outlier Detection for Tabular Data [12.469208664014472]
外乱検出は、サイバーセキュリティ、金融詐欺検出、医療といった高度な領域におけるデータの整合性を保護するために不可欠である。
textsfRFODは特徴的条件付き再構成問題として異常検出をリフレームする。
textsfRFODは、検出精度において最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-10-09T19:02:12Z) - Crafting Imperceptible On-Manifold Adversarial Attacks for Tabular Data [38.89245780759371]
本稿では,混合入力変分オートエンコーダ(VAE)を用いた遅延空間摂動フレームワークを提案し,統計的に一貫した逆の例を生成する。
提案手法は,従来の入力空間攻撃と比較して,アウトレーラ率と一貫した性能を著しく低下させることを示す。
論文 参考訳(メタデータ) (2025-07-15T05:34:44Z) - Data Curation Matters: Model Collapse and Spurious Shift Performance Prediction from Training on Uncurated Text Embeddings [0.0]
未処理のテキスト埋め込み(TE)のトレーニングモデルは、モデル崩壊として知られる深刻な障害モードにつながる可能性がある。
データキュレーションのプロキシとしてTE品質の新しい視点を提供する。
これらの知見は、よりニュアンスなキュレーションの必要性と埋め込みに基づく表現の評価を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-22T11:01:41Z) - Weakly Supervised Contrastive Adversarial Training for Learning Robust Features from Semi-supervised Data [2.398961433119946]
既存の敵の訓練方法は、しばしば摂動に悩まされる。
Weakly Supervised Contrastive Adversarial Training (WSCAT)を提案する。
WSCATは、ロバストでない特徴とラベルの相関を乱すことにより、堅牢な特徴の学習を改善するための完全な摂動を保証する。
論文 参考訳(メタデータ) (2025-03-14T03:01:10Z) - A Closer Look at TabPFN v2: Understanding Its Strengths and Extending Its Capabilities [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、さまざまな下流データセット間で、前例のないコンテキスト内学習性能を達成する。
本研究では,TabPFN v2が属性トークンをランダムに入力しても属性関係を推測可能であることを示す。
我々はTabPFN v2の制限がテスト時間分割・コンテキスト戦略によって対処できることを実証した。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - Provably Unlearnable Data Examples [27.24152626809928]
原文(投稿日:2012/09/19)へのリンク 未許可のモデルでは、共有データを学習不能にするための努力が続けられている。
本稿では、学習不能データセットのいわゆる$(q, eta)$-Learnabilityを認証するためのメカニズムを提案する。
認証の低い$(q, eta)$-Learnabilityは、データセットに対するより堅牢で効果的な保護を示している。
論文 参考訳(メタデータ) (2024-05-06T09:48:47Z) - On the Embedding Collapse when Scaling up Recommendation Models [53.66285358088788]
埋め込み崩壊現象をスケーラビリティの阻害とみなし、埋め込み行列は低次元の部分空間を占有する傾向にある。
本稿では,組込み集合固有の相互作用モジュールを組み込んで,多様性を持つ組込み集合を学習する,単純かつ効果的な組込み設計を提案する。
論文 参考訳(メタデータ) (2023-10-06T17:50:38Z) - What Can We Learn from Unlearnable Datasets? [107.12337511216228]
学習不可能なデータセットは、ディープニューラルネットワークの一般化を防ぐことによって、データのプライバシを保護する可能性がある。
学習不可能なデータセットでトレーニングされたニューラルネットワークは、一般化には役に立たない単純なルールであるショートカットのみを学ぶと広く信じられている。
これとは対照的に,ネットワークは高いテスト性能を期待できる有用な特徴を実際に学習することができ,画像保護が保証されていないことを示唆している。
論文 参考訳(メタデータ) (2023-05-30T17:41:35Z) - DELTA: Dynamic Embedding Learning with Truncated Conscious Attention for
CTR Prediction [61.68415731896613]
CTR(Click-Through Rate)予測は、製品とコンテンツの推奨において重要なタスクである。
本稿では,CTR予測のための動的埋め込み学習を実現するモデルを提案する。
論文 参考訳(メタデータ) (2023-05-03T12:34:45Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - Confident Sinkhorn Allocation for Pseudo-Labeling [40.883130133661304]
半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。
本稿では,疑似ラベル作成における不確実性の役割を理論的に研究し,CSA(Confident Sinkhorn Allocation)を提案する。
CSAは、信頼度の高いサンプルのみへの最適な輸送を通して、最高の擬似ラベル割り当てを特定する。
論文 参考訳(メタデータ) (2022-06-13T02:16:26Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。