Fugu-MT 論文翻訳(概要): Under the Hood of Tabular Data Generation Models: the Strong Impact of Hyperparameter Tuning

論文の概要: Under the Hood of Tabular Data Generation Models: the Strong Impact of Hyperparameter Tuning

arxiv url: http://arxiv.org/abs/2406.12945v1
Date: Tue, 18 Jun 2024 07:27:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-22 00:37:55.205930
Title: Under the Hood of Tabular Data Generation Models: the Strong Impact of Hyperparameter Tuning
Title（参考訳）: タブラルデータ生成モデルのフッド下:ハイパーパラメータチューニングの強い影響
Authors: G. Charbel N. Kindji, Lina Maria Rojas-Barahona, Elisa Fromont, Tanguy Urvoy,
Abstract要約: 本研究では,モデル統合評価の実践的ニーズに対処する。高速な最適化を実現するために,各モデルに対する探索空間の削減を提案する。ほとんどのモデルでは、データセット固有の大規模チューニングによって、オリジナルの構成よりもパフォーマンスが大幅に向上する。
参考スコア（独自算出の注目度）: 2.5168710814072894
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate the impact of dataset-specific hyperparameter, feature encoding, and architecture tuning on five recent model families for tabular data generation through an extensive benchmark on 16 datasets. This study addresses the practical need for a unified evaluation of models that fully considers hyperparameter optimization. Additionally, we propose a reduced search space for each model that allows for quick optimization, achieving nearly equivalent performance at a significantly lower cost.Our benchmark demonstrates that, for most models, large-scale dataset-specific tuning substantially improves performance compared to the original configurations. Furthermore, we confirm that diffusion-based models generally outperform other models on tabular data. However, this advantage is not significant when the entire tuning and training process is restricted to the same GPU budget for all models.
Abstract（参考訳）: グラフデータ生成のための最近の5つのモデルファミリに対する,データセット固有のハイパーパラメータ,特徴符号化,アーキテクチャチューニングの影響を,16データセットの広範なベンチマークを用いて検討した。本研究は、ハイパーパラメータ最適化を完全に考慮したモデルの統一評価の実践的必要性に対処する。さらに,各モデルに対して,高速な最適化を実現し,ほぼ同等の性能を極めて低いコストで達成する検索スペースの削減を提案し,我々のベンチマークでは,ほとんどのモデルにおいて,大規模データセット特化チューニングが元の構成よりも大幅に性能を向上することを示した。さらに,拡散モデルが表データ上で他のモデルを上回ることが確認された。しかし、チューニングとトレーニングプロセス全体がすべてのモデルで同じGPU予算に制限されている場合、この利点は重要ではない。

関連論文リスト

TabINR: An Implicit Neural Representation Framework for Tabular Data Imputation [0.6407815281667869]
本稿では,テーブルをニューラルネットワークとしてモデル化する自動デコーダベースのImplicit Neural RepresentationフレームワークであるTabINRを紹介する。我々は、現実世界の12のデータセットと複数の欠落メカニズムにまたがって、我々のフレームワークを評価した。
論文参考訳（メタデータ） (2025-10-01T17:24:35Z)
Measuring LLM Sensitivity in Transformer-based Tabular Data Synthesis [0.451520252387513]
トランスフォーマーベースのモデルは、データ品質の点で他の最先端モデルよりも優れている。高い計算コストは、プロサマーハードウェアを持つエンドユーザーには実現不可能な場合があります。 GReaTは、REaLTabFormerよりも低いランタイムを一貫して達成し、最も大きなデータセットでしか実行できない。
論文参考訳（メタデータ） (2025-09-25T05:48:48Z)
Accelerate Scaling of LLM Finetuning via Quantifying the Coverage and Depth of Instruction Set [37.26992936545316]
スーパーバイドファインチューニング(SFT)に使用されるデータのスケーリングは、モデル性能の比例的なゲインを保証するものではない。この研究は、SFTスケーラビリティを管理する2つの基本的なデータセット特性を特定する。モデルに依存しないデータ選択フレームワークである textbfInformation Landscape Approximation (ILA) を提案する。
論文参考訳（メタデータ） (2025-09-08T09:22:57Z)
Modeling Saliency Dataset Bias [10.364146597632365]
画像ベースサリエンシ予測の最近の進歩は、既存のベンチマーク上でのゴールド標準性能レベルに近づいている。データセットバイアスのため、複数の正当性データセットにまたがる修正予測が依然として困難であることを示す。本稿では,データセットに依存しないエンコーダ・デコーダ構造を20未満のパラメータで拡張する新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-05-15T10:55:47Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws [59.03420759554073]
本稿では,オンライン手法でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO)を導入する。 ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。 ADOは、ドメインごとのスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整する。
論文参考訳（メタデータ） (2024-10-15T17:47:44Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Crafting Efficient Fine-Tuning Strategies for Large Language Models [2.633490094119608]
200サンプル未満の細調整された大型言語モデル(LLM)は、製品属性抽出タスクにおいて、モデル精度を70%から88%に向上させることができる。トレーニング時間全体の20%のモデルを評価するベイズハイパーパラメータ最適化法は,最終的なモデル性能と強く相関する。このアプローチにより、独立したテストセットで評価すると、ベースラインモデルよりも精度が2%向上した。
論文参考訳（メタデータ） (2024-07-18T21:36:00Z)
Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文参考訳（メタデータ） (2024-05-28T11:30:19Z)
An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文参考訳（メタデータ） (2024-04-12T12:31:06Z)
FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis [0.7751705157998379]
十分に注釈付けされた医療データセットの不足は、ImageNetのような広範なデータセットやCLIPのような事前訓練されたモデルからの移行学習を活用する必要がある。モデルスープは、In-Domain(ID)タスクのパフォーマンスを改善し、out-of-Distribution(OOD)データセットに対する堅牢性を高めることを目的とした、複数の微調整されたモデルの平均である。本稿では,様々なレベルのモデルの局所的および大域的集約を伴う階層的統合手法を提案する。
論文参考訳（メタデータ） (2024-03-20T06:48:48Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-01-08T22:33:14Z)
Not All Data Matters: An End-to-End Adaptive Dataset Pruning Framework for Enhancing Model Performance and Efficiency [9.460023981858319]
本稿では,AdaPruner と呼ばれる適応型 DAtaset PRUNing フレームワークを提案する。 AdaPrunerは、冗長なサンプルを期待プルーニング比率に反復的にプルークする。トレーニングデータの最大10～30%をプルーニングしても、モデルパフォーマンスを著しく向上させることができる。
論文参考訳（メタデータ） (2023-12-09T16:01:21Z)
Fairer and More Accurate Tabular Models Through NAS [14.147928131445852]
本稿では,多目的ニューラルアーキテクチャサーチ (NAS) とハイパーパラメータ最適化 (HPO) を,表データの非常に困難な領域への最初の応用として提案する。我々はNASで精度のみに最適化されたモデルが、本質的に公正な懸念に対処できないことをしばしば示している。公平性、正確性、あるいは両方において、最先端のバイアス緩和手法を一貫して支配するアーキテクチャを作成します。
論文参考訳（メタデータ） (2023-10-18T17:56:24Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How [62.467716468917224]
本稿では,最適事前学習モデルとハイパーパラメータを共同で探索し,微調整する手法を提案する。本手法は,一連のデータセット上で,事前学習したモデルの性能に関する知識を伝達する。得られたアプローチによって、新しいデータセットの正確な事前学習モデルを迅速に選択できることを実証的に実証する。
論文参考訳（メタデータ） (2023-06-06T16:15:26Z)
Deep incremental learning models for financial temporal tabular datasets with distribution shifts [0.9790236766474201]
このフレームワークは、単純な基本的なビルディングブロック(決定木)を使用して、必要な複雑さの自己相似モデルを構築する。我々は,NumeraiデータセットでトレーニングしたXGBoostモデルを用いて提案手法を実証し,異なるモデルスナップショット上での2層のXGBoostモデルの深部アンサンブルが高品質な予測を提供することを示す。
論文参考訳（メタデータ） (2023-03-14T14:10:37Z)
Prototypical Fine-tuning: Towards Robust Performance Under Varying Data Sizes [47.880781811936345]
我々は、微調整事前学習言語モデル(LM)のための新しいフレームワークを提案する。提案手法は,データポイント数やモデル固有の属性に応じて,モデルキャパシティを自動的に調整することができる。
論文参考訳（メタデータ） (2022-11-24T14:38:08Z)
A Case for Dataset Specific Profiling [0.9023847175654603]
データ駆動科学は、科学的な発見が、リッチで規律固有のデータセットに対する計算AIモデルの実行に依存する、新興パラダイムである。現代的な機械学習フレームワークを使用することで、誰でも科学的応用を可能にするデータに隠された概念を明らかにする計算モデルを開発し、実行することができる。重要で広く使われているデータセットでは、データセットに対して実行できるすべての計算モデルのパフォーマンスを計算することは、クラウドリソースの点でコストを禁ずる。
論文参考訳（メタデータ） (2022-08-01T18:38:05Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
A Simple and Fast Baseline for Tuning Large XGBoost Models [8.203493207581937]
均一なサブサンプリングによって,大規模なXGBoostモデルのチューニングを高速化する,シンプルかつ高速なベースラインが得られることを示す。このベースラインが15～70mathrmGBの大規模データセットに対して有効であることを示す。
論文参考訳（メタデータ） (2021-11-12T20:17:50Z)
Post-mortem on a deep learning contest: a Simpson's paradox and the complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文参考訳（メタデータ） (2021-06-01T19:19:49Z)
AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文参考訳（メタデータ） (2020-08-16T11:36:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。