論文の概要: Retrieval & Fine-Tuning for In-Context Tabular Models
- arxiv url: http://arxiv.org/abs/2406.05207v1
- Date: Fri, 7 Jun 2024 18:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 22:45:56.359728
- Title: Retrieval & Fine-Tuning for In-Context Tabular Models
- Title(参考訳): In-Context Tabular Modelの検索と微調整
- Authors: Valentin Thomas, Junwei Ma, Rasa Hosseinzadeh, Keyvan Golestan, Guangwei Yu, Maksims Volkovs, Anthony Caterini,
- Abstract要約: トランスフォーマーベースのインコンテキスト学習を用いた最近の進歩は、より小さく、より複雑でないデータセットを約束しているが、より大きく、より複雑なデータセットにスケールするのに苦労している。
検索と微調整の組み合わせを提案する: 近接する近隣住民を収集することで、変換器をデータの局所的なサブセットに適応させ、その周辺住民の状況に応じてタスク固有の微調整を行うことができる。
テキスト内モデルと比較すると,性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 16.668695961462827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data is a pervasive modality spanning a wide range of domains, and the inherent diversity poses a considerable challenge for deep learning. Recent advancements using transformer-based in-context learning have shown promise on smaller and less complex datasets, but have struggled to scale to larger and more complex ones. To address this limitation, we propose a combination of retrieval and fine-tuning: we can adapt the transformer to a local subset of the data by collecting nearest neighbours, and then perform task-specific fine-tuning with this retrieved set of neighbours in context. Using TabPFN as the base model -- currently the best tabular in-context learner -- and applying our retrieval and fine-tuning scheme on top results in what we call a locally-calibrated PFN, or LoCalPFN. We conduct extensive evaluation on 95 datasets curated by TabZilla from OpenML, upon which we establish a new state-of-the-art with LoCalPFN -- even with respect to tuned tree-based models. Notably, we show a significant boost in performance compared to the base in-context model, demonstrating the efficacy of our approach and advancing the frontier of deep learning in tabular data.
- Abstract(参考訳): タブラルデータ(Tabular data)は、幅広い領域にまたがる広範に広がるモダリティであり、固有の多様性はディープラーニングにかなりの課題をもたらす。
トランスフォーマーベースのインコンテキスト学習を用いた最近の進歩は、より小さく、より複雑でないデータセットを約束しているが、より大きく、より複雑なデータセットにスケールするのに苦労している。
この制限に対処するために、我々は検索と微調整の組み合わせを提案する: 近くの隣人を収集することで、トランスフォーマーをデータの局所的なサブセットに適応させ、この検索された隣人の集合とコンテキストでタスク固有の微調整を行うことができる。
TabPFNをベースモデルとして – 現在最高の表形式のインコンテキスト学習者 – を使用し、検索と微調整スキームをトップに適用することで、ローカル校正されたPFN(LoCalPFN)と呼ばれる結果が得られます。
OpenMLのTabZillaがキュレートした95のデータセットに対して広範な評価を行い、調整されたツリーベースモデルであっても、LoCalPFNで新たな最先端のデータセットを確立する。
特に,本手法の有効性を実証し,表形式での深層学習のフロンティアを推し進めた。
関連論文リスト
- A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。
学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。
また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - Plan, Generate and Complicate: Improving Low-resource Dialogue State Tracking via Easy-to-Difficult Zero-shot Data Augmentation [5.042738414157664]
我々は,低リソースの対話状態追跡のためのZero-shot Data AugmentationフレームワークであるEDZ-DAを提案する。
また、ドメイン関係に基づいて対話を複雑化し、参照スロット追跡のためのモデルの能力を高める。
論文 参考訳(メタデータ) (2024-06-13T06:49:03Z) - Mixture of In-Context Prompters for Tabular PFNs [33.76194735049027]
MIXTUREPFNは、36の多様なデータセットに対して、19の強力なディープラーニングとツリーベースのベースラインに対して、Condorcetの勝者である。
上記のアルゴリズムのうち、統計的に有意な上位10位を達成している。
論文 参考訳(メタデータ) (2024-05-25T09:47:59Z) - Interpretable Machine Learning for TabPFN [5.012821694203072]
TabPFNモデルは、様々な分類タスクで最先端のパフォーマンスを達成することができる。
モデルのユニークな性質を利用することで、我々の適応はより効率的な計算を可能にします。
論文 参考訳(メタデータ) (2024-03-16T13:35:15Z) - In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z) - Latent Bottlenecked Attentive Neural Processes [71.18817592128207]
LBANP(Latent Bottlenecked Attentive Neural Processs)について
LBANPは、コンテキストデータポイントの数によらず、クエリ処理の複雑さを持つ。
LBANPは,メタ回帰,画像補完,コンテキスト的マルチアームバンディットに関する最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2022-11-15T19:21:41Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。