Fugu-MT 論文翻訳(概要): On the Efficiency of NLP-Inspired Methods for Tabular Deep Learning

論文の概要: On the Efficiency of NLP-Inspired Methods for Tabular Deep Learning

arxiv url: http://arxiv.org/abs/2411.17207v1
Date: Tue, 26 Nov 2024 08:23:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 17:20:52.156384
Title: On the Efficiency of NLP-Inspired Methods for Tabular Deep Learning
Title（参考訳）: タブラル深層学習におけるNLP法の有効性について
Authors: Anton Frederik Thielmann, Soheila Samiee,
Abstract要約: 本稿では,表層深層学習(DL)の最新技術について批判的に考察する。性能と計算効率に重点を置いている。ソースコードはhttps://github.com/basf/mamba-tabular.comで入手できる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in tabular deep learning (DL) have led to substantial performance improvements, surpassing the capabilities of traditional models. With the adoption of techniques from natural language processing (NLP), such as language model-based approaches, DL models for tabular data have also grown in complexity and size. Although tabular datasets do not typically pose scalability issues, the escalating size of these models has raised efficiency concerns. Despite its importance, efficiency has been relatively underexplored in tabular DL research. This paper critically examines the latest innovations in tabular DL, with a dual focus on performance and computational efficiency. The source code is available at https://github.com/basf/mamba-tabular.
Abstract（参考訳）: 表層深層学習(DL)の最近の進歩は、従来のモデルの能力を超え、大幅な性能向上につながっている。自然言語処理(NLP)の手法、例えば言語モデルに基づくアプローチの採用により、表形式のデータのためのDLモデルも複雑さとサイズが増している。表形式のデータセットは、通常スケーラビリティの問題を引き起こすことはないが、これらのモデルのエスカレーションサイズは効率上の懸念を引き起こしている。その重要性にもかかわらず、表状DL研究において効率性は比較的過小評価されている。本稿では,表型DLの最近の進歩を,性能と計算効率の両面から批判的に考察する。ソースコードはhttps://github.com/basf/mamba-tabular.comで入手できる。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
TabDPT: Scaling Tabular Foundation Models [20.00390825519329]
実データによる性能向上と一般化の方法を示す。本モデルでは,CC18(分類)およびCTR23(回帰)ベンチマークの最先端性能を実現する。 TabDPTはまた、モデルのサイズと利用可能なデータの量の両方が増加するにつれて、強力なスケーリングを示す。
論文参考訳（メタデータ） (2024-10-23T18:00:00Z)
Escaping the Forest: Sparse Interpretable Neural Networks for Tabular Data [0.0]
我々のモデルであるSparse TABular NET や sTAB-Net がツリーベースモデルよりも効果的であることを示す。 SHAPのようなポストホックメソッドよりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-10-23T10:50:07Z)
Mambular: A Sequential Model for Tabular Deep Learning [0.7184556517162347]
本稿では,グラフデータに対する自己回帰状態空間モデルの利用について検討する。既存のベンチマークモデルと比較する。その結果,特徴をシーケンスとして解釈して処理することで,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-08-12T16:57:57Z)
Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文参考訳（メタデータ） (2024-07-03T16:38:57Z)
Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文参考訳（メタデータ） (2024-03-04T08:38:56Z)
In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。 ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文参考訳（メタデータ） (2024-02-10T15:23:45Z)
Is Deep Learning finally better than Decision Trees on Tabular Data? [19.657605376506357]
タブラルデータは、多くの現実世界のアプリケーションでその汎用性と使いやすさのために、ユビキタスなデータモダリティである。データに関する最近の研究は、この領域におけるニューラルネットワークの限界についてユニークな視点を提供する。本研究は、その基礎となる学習パラダイムに基づいて、10の最先端モデルを分類する。
論文参考訳（メタデータ） (2024-02-06T12:59:02Z)
MambaTab: A Plug-and-Play Model for Learning Tabular Data [13.110156202816112]
本研究は,表データに対する構造化状態空間モデル(SSM)であるMambaTabに基づく革新的なアプローチを導入する。 MambaTabは、さまざまなベンチマークデータセットで実証的に検証されるように、パラメータを著しく少なくしながら、優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-01-16T22:44:12Z)
TabR: Tabular Deep Learning Meets Nearest Neighbors in 2023 [33.70333110327871]
TabR -- 基本的には、中央にカスタムk-Nearest-Neighborsのようなコンポーネントを備えたフィードフォワードネットワークを提供します。数百万オブジェクトまでのデータセットを持つ公開ベンチマークセットでは、TabRが最高の平均パフォーマンスを示している。はるかに高いパフォーマンスに加えて、TabRはシンプルで、はるかに効率的です。
論文参考訳（メタデータ） (2023-07-26T17:58:07Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)
Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文参考訳（メタデータ） (2022-06-30T14:24:32Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
The NLP Cookbook: Modern Recipes for Transformer based Deep Learning Architectures [0.0]
自然言語処理モデルは言語的および意味的なタスクにおいて驚くべき成功を収めた。最近のNLPアーキテクチャは、中程度のモデルサイズを達成するために、トランスファーラーニング、プルーニング、量子化、知識蒸留の概念を活用している。知識レトリバーは、より大きなデータベースのコーパスから、より効率と正確さで明示的なデータドキュメントを抽出するために構築されている。
論文参考訳（メタデータ） (2021-03-23T22:38:20Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。