論文の概要: C$^{2}$TC: A Training-Free Framework for Efficient Tabular Data Condensation
- arxiv url: http://arxiv.org/abs/2602.21717v1
- Date: Wed, 25 Feb 2026 09:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.775102
- Title: C$^{2}$TC: A Training-Free Framework for Efficient Tabular Data Condensation
- Title(参考訳): C$^{2}$TC: 効率的なタブラルデータ凝縮のためのトレーニングフリーフレームワーク
- Authors: Sijia Xu, Fan Li, Xiaoyang Wang, Zhengyi Yang, Xuemin Lin,
- Abstract要約: C$2$TC(Class-Adaptive Clustering for Tabular Condensation)は、データセットの縮合のためのトレーニング不要のフレームワークである。
C$2$TCは、最先端のベースラインよりも少なくとも2桁の効率を改善する。
10の実世界のデータセットの実験では、C$2$TCは最先端のベースラインよりも少なくとも2桁の効率を改善する。
- 参考スコア(独自算出の注目度): 21.31236933570938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data is the primary data format in industrial relational databases, underpinning modern data analytics and decision-making. However, the increasing scale of tabular data poses significant computational and storage challenges to learning-based analytical systems. This highlights the need for data-efficient learning, which enables effective model training and generalization using substantially fewer samples. Dataset condensation (DC) has emerged as a promising data-centric paradigm that synthesizes small yet informative datasets to preserve data utility while reducing storage and training costs. However, existing DC methods are computationally intensive due to reliance on complex gradient-based optimization. Moreover, they often overlook key characteristics of tabular data, such as heterogeneous features and class imbalance. To address these limitations, we introduce C$^{2}$TC (Class-Adaptive Clustering for Tabular Condensation), the first training-free tabular dataset condensation framework that jointly optimizes class allocation and feature representation, enabling efficient and scalable condensation. Specifically, we reformulate the dataset condensation objective into a novel class-adaptive cluster allocation problem (CCAP), which eliminates costly training and integrates adaptive label allocation to handle class imbalance. To solve the NP-hard CCAP, we develop HFILS, a heuristic local search that alternates between soft allocation and class-wise clustering to efficiently obtain high-quality solutions. Moreover, a hybrid categorical feature encoding (HCFE) is proposed for semantics-preserving clustering of heterogeneous discrete attributes. Extensive experiments on 10 real-world datasets demonstrate that C$^{2}$TC improves efficiency by at least 2 orders of magnitude over state-of-the-art baselines, while achieving superior downstream performance.
- Abstract(参考訳): タブラルデータ(Tabular data)は、産業用リレーショナルデータベースの主要なデータフォーマットであり、現代のデータ分析と意思決定を支えている。
しかし、表データの規模が大きくなると、学習に基づく分析システムにおいて、計算と記憶に重大な課題が生じる。
これは、より少ないサンプルを使用した効果的なモデルトレーニングと一般化を可能にする、データ効率の学習の必要性を強調している。
Dataset Condensation(DC)は、ストレージとトレーニングコストを削減しつつ、データユーティリティを保存するために、小さなが情報のあるデータセットを合成する、有望なデータ中心のパラダイムとして登場した。
しかし、既存のDC法は複雑な勾配に基づく最適化に依存するため、計算集約的である。
さらに、不均一な特徴やクラス不均衡など、表データの重要な特徴を見落としてしまうことが多い。
C$^{2}$TC(Class-Adaptive Clustering for Tabular Condensation)は、クラスアロケーションと特徴表現を協調的に最適化し、効率的でスケーラブルなコンデンサを実現する、最初のトレーニング不要な表層データセットコンデンサフレームワークである。
具体的には、データセットの凝縮目標を新しいクラス適応クラスタアロケーション問題(CCAP)に再構成し、コストのかかるトレーニングを排除し、適応ラベルアロケーションを統合してクラス不均衡を処理する。
NPハードCCAPを解決するために,ソフトアロケーションとクラスワイドクラスタリングを交互に組み合わせて高品質な解を得るヒューリスティックなローカルサーチであるHFILSを開発した。
さらに、異種離散属性のセマンティックス保存クラスタリングのために、ハイブリッド分類的特徴符号化(HCFE)を提案する。
10の実世界のデータセットに対する大規模な実験により、C$^{2}$TCは、最先端のベースラインよりも少なくとも2桁の効率向上を達成しつつ、より優れたダウンストリーム性能を実現している。
関連論文リスト
- Enhancing Generalization via Sharpness-Aware Trajectory Matching for Dataset Condensation [37.77454972709646]
学習した合成データセットの一般化能力を高めるシャープネス認識軌道マッチング(SATM)を導入する。
我々の手法は数学的に十分サポートされており、制御可能な計算オーバーヘッドとともに実装が容易である。
論文 参考訳(メタデータ) (2025-02-03T22:30:06Z) - Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。
トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。
UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文 参考訳(メタデータ) (2025-01-20T21:10:22Z) - Going Beyond Feature Similarity: Effective Dataset Distillation based on Class-Aware Conditional Mutual Information [43.44508080585033]
本稿では,データセットのクラス認識複雑性を評価するために,条件付き相互情報(CMI)を導入する。
合成データセットのクラス認識複雑性を制約しながら,蒸留損失を最小限に抑える。
論文 参考訳(メタデータ) (2024-12-13T08:10:47Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Dataset Condensation via Efficient Synthetic-Data Parameterization [40.56817483607132]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。
データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。
本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T09:55:31Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。