Fugu-MT 論文翻訳(概要): Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective

論文の概要: Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective

arxiv url: http://arxiv.org/abs/2311.00055v2
Date: Wed, 12 Feb 2025 14:43:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:00.514404
Title: Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective
Title（参考訳）: タブラルデータにおける事前学習の再考--近辺の埋め込みの視点から
Authors: Han-Jia Ye, Qi-Le Zhou, Huai-Hong Yin, De-Chuan Zhan, Wei-Lun Chao,
Abstract要約: メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。 101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
参考スコア（独自算出の注目度）: 71.45945607871715
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-training is prevalent in deep learning for vision and text data, leveraging knowledge from other datasets to enhance downstream tasks. However, for tabular data, the inherent heterogeneity in attribute and label spaces across datasets complicates the learning of shareable knowledge. We propose Tabular data Pre-Training via Meta-representation (TabPTM), aiming to pre-train a general tabular model over diverse datasets. The core idea is to embed data instances into a shared feature space, where each instance is represented by its distance to a fixed number of nearest neighbors and their labels. This ''meta-representation'' transforms heterogeneous tasks into homogeneous local prediction problems, enabling the model to infer labels (or scores for each label) based on neighborhood information. As a result, the pre-trained TabPTM can be applied directly to new datasets, regardless of their diverse attributes and labels, without further fine-tuning. Extensive experiments on 101 datasets confirm TabPTM's effectiveness in both classification and regression tasks, with and without fine-tuning.
Abstract（参考訳）: 事前トレーニングは、他のデータセットからの知識を活用して下流タスクを強化する、視覚とテキストデータのディープラーニングで一般的である。しかし、表形式のデータの場合、属性空間とラベル空間のデータセット間の固有の不均一性は共有可能な知識の学習を複雑にする。本稿では,多種多様なデータセットにまたがる一般的な表形式モデルを事前学習することを目的とした,メタ表現(TabPTM)によるタブラルデータ事前学習を提案する。中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。この'meta-representation'は異種タスクを同種局所予測問題に変換し、近隣情報に基づいてラベル(または各ラベルのスコア)を推測する。その結果、事前トレーニングされたTabPTMは、さまざまな属性やラベルに関わらず、さらに微調整することなく、新しいデータセットに直接適用することができる。 101データセットの大規模な実験により、微調整なしで、分類タスクと回帰タスクの両方においてTabPTMの有効性が確認された。

関連論文リスト

Universal Embeddings of Tabular Data [0.0]
リレーショナルデータベースにおけるタブラリデータは、産業データのかなりの部分を占めている。本稿では,予め定義された目標を満たさずにダウンストリームタスクを実行するための,タスク非依存な表データの埋め込みを普遍的に生成するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-08T11:45:29Z)
Zero-shot Meta-learning for Tabular Prediction Tasks with Adversarially Pre-trained Transformer [2.1677183904102257]
本稿では、実世界のデータセットを事前学習することなく、表形式の予測タスクでゼロショットメタ学習を行うことのできるAdversarially Pre-trained Transformer(APT)を提案する。 APTは、異なる合成データセットで意図的にモデルに挑戦する敵対的な合成データエージェントで事前訓練されている。筆者らのフレームワークは,データセットの特徴をフィルタリングすることなく,小さな分類タスクにおける最先端のパフォーマンスと一致していることを示す。
論文参考訳（メタデータ） (2025-02-06T23:58:11Z)
TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。 LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。 LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文参考訳（メタデータ） (2024-06-25T16:03:50Z)
TabMDA: Tabular Manifold Data Augmentation for Any Classifier using Transformers with In-context Subsetting [23.461204546005387]
TabMDAは、表データの多様体データ拡張のための新しい方法である。これは、TabPFNのような事前訓練されたインコンテキストモデルを利用して、データを埋め込みスペースにマッピングする。我々は,TabMDAを5つの標準分類器上で評価し,各種データセット間での大幅な性能向上を観察した。
論文参考訳（メタデータ） (2024-06-03T21:51:13Z)
Cross-Table Pretraining towards a Universal Function Space for Heterogeneous Tabular Data [35.61663559675556]
クロスデータセット事前トレーニングは、様々な分野で顕著な成功を収めている。本研究では,多目的な下流表予測タスクのためのクロステーブル事前学習型トランスであるXTFormerを提案する。我々の手法は、XTFormerを事前訓練して、全ての潜在的な機能ターゲットマッピングを含む「メタ関数」空間を確立することである。
論文参考訳（メタデータ） (2024-06-01T03:24:31Z)
Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文参考訳（メタデータ） (2024-03-04T08:38:56Z)
Tabular Few-Shot Generalization Across Heterogeneous Feature Spaces [43.67453625260335]
異種特徴空間を持つデータセット間での知識共有を含む数ショット学習のための新しいアプローチを提案する。 FLATはデータセットとその個々の列の低次元埋め込みを学習し、それまで見つからなかったデータセットへの知識伝達と一般化を容易にする。デコーダネットワークは、グラフ注意ネットワークとして実装された予測対象ネットワークをパラメータ化して、表形式のデータセットの不均一性に対応する。
論文参考訳（メタデータ） (2023-11-16T17:45:59Z)
Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。 TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。 LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文参考訳（メタデータ） (2023-05-16T06:37:38Z)
XTab: Cross-table Pretraining for Tabular Transformers [29.419276738753968]
XTabは、さまざまなドメインのデータセット上の表型トランスフォーマーのクロステーブル事前トレーニングのためのフレームワークである。 XTabは、複数の表型変換器の一般化性、学習速度、性能を一貫して向上させることを示す。回帰、二分法、多クラス分類といった様々なタスクにおいて、最先端の表層深層学習モデルよりも優れた性能を実現する。
論文参考訳（メタデータ） (2023-05-10T12:17:52Z)
M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文参考訳（メタデータ） (2023-03-09T09:05:47Z)
Is margin all you need? An extensive empirical study of active learning on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文参考訳（メタデータ） (2022-10-07T21:18:24Z)
Learning Enhanced Representations for Tabular Data via Neighborhood Propagation [24.485479610138498]
データインスタンスのクロスローパターンとクロスカラムパターンをモデル化するハイパーグラフを構築した。次に、ターゲットデータインスタンス表現を強化するためにメッセージの伝搬を行います。 2つの重要なデータ予測タスクの実験は、提案したPETモデルの優越性を検証する。
論文参考訳（メタデータ） (2022-06-14T04:24:52Z)
SubTab: Subsetting Features of Tabular Data for Self-Supervised Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文参考訳（メタデータ） (2021-10-08T20:11:09Z)
Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。私たちのアプローチは手動の分類学の調整を必要としません。
論文参考訳（メタデータ） (2021-02-25T18:55:58Z)
i-Mix: A Domain-Agnostic Strategy for Contrastive Representation Learning [117.63815437385321]
対照的な表現学習を改善するために, 単純で効果的なドメインに依存しない正規化戦略i-Mixを提案する。実験では、i-Mixはドメイン間の学習表現の質を一貫して改善することを示した。
論文参考訳（メタデータ） (2020-10-17T23:32:26Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。