Fugu-MT 論文翻訳(概要): A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets

論文の概要: A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets

arxiv url: http://arxiv.org/abs/2408.14817v1
Date: Tue, 27 Aug 2024 06:58:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 14:45:05.286767
Title: A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets
Title（参考訳）: 複数語彙データセット間の機械学習と深層学習の総合ベンチマーク
Authors: Assaf Shmuel, Oren Glickman, Teddy Lazebnik,
Abstract要約: 本稿では,Deep Learningモデルが優れているデータセットのタイプを特徴付けるためのベンチマークを紹介する。我々は回帰タスクと分類タスクを含む20の異なるモデルで111のデータセットを評価した。このベンチマークの結果に基づいて、我々は、DLモデルが86.1%の精度で代替手法より優れているシナリオを予測するモデルを訓練する。
参考スコア（独自算出の注目度）: 0.6144680854063939
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The analysis of tabular datasets is highly prevalent both in scientific research and real-world applications of Machine Learning (ML). Unlike many other ML tasks, Deep Learning (DL) models often do not outperform traditional methods in this area. Previous comparative benchmarks have shown that DL performance is frequently equivalent or even inferior to models such as Gradient Boosting Machines (GBMs). In this study, we introduce a comprehensive benchmark aimed at better characterizing the types of datasets where DL models excel. Although several important benchmarks for tabular datasets already exist, our contribution lies in the variety and depth of our comparison: we evaluate 111 datasets with 20 different models, including both regression and classification tasks. These datasets vary in scale and include both those with and without categorical variables. Importantly, our benchmark contains a sufficient number of datasets where DL models perform best, allowing for a thorough analysis of the conditions under which DL models excel. Building on the results of this benchmark, we train a model that predicts scenarios where DL models outperform alternative methods with 86.1% accuracy (AUC 0.78). We present insights derived from this characterization and compare these findings to previous benchmarks.
Abstract（参考訳）: 表形式のデータセットの分析は、科学研究と機械学習(ML)の現実の応用の両方で広く使われている。他の多くのMLタスクとは異なり、ディープラーニング(DL)モデルは、この分野の伝統的なメソッドを上回りません。以前の比較ベンチマークでは、DL性能はグラディエント・ブースティング・マシン(GBM)のようなモデルと同等か劣っていることが示されている。本研究では,DLモデルが優れているデータセットの種類をより正確に評価するための総合的なベンチマークを提案する。表付きデータセットのいくつかの重要なベンチマークがすでに存在しているが、我々の貢献は、我々の比較の多様性と深さにある:回帰と分類の両方を含む20の異なるモデルで111のデータセットを評価する。これらのデータセットはスケールが異なり、分類変数と非分類変数の両方を含む。重要な点として、我々のベンチマークには、DLモデルが最適に動作する十分な数のデータセットが含まれており、DLモデルが優れている条件を徹底的に分析することができる。本ベンチマークの結果に基づいて, DLモデルが86.1%の精度(AUC 0.78)で代替手法より優れているシナリオを予測するモデルを訓練する。この特徴から得られた知見を提示し、これらの知見を以前のベンチマークと比較する。

関連論文リスト

Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文参考訳（メタデータ） (2025-05-26T16:05:10Z)
MultiTab: A Comprehensive Benchmark Suite for Multi-Dimensional Evaluation in Tabular Domains [4.126887977388267]
我々は,多次元データ認識分析のためのベンチマークスイートと評価フレームワークであるMultiTabを提案する。集約されたモデルのみを比較するのではなく、MultiTabは主要なデータ特性に沿って、196の公開データセットを分類する。分析の結果、モデルの性能はそのような状況に非常に敏感であることがわかった。
論文参考訳（メタデータ） (2025-05-20T13:00:43Z)
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文参考訳（メタデータ） (2025-03-26T12:42:37Z)
Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。 LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文参考訳（メタデータ） (2025-03-05T05:39:29Z)
Beyond QA Pairs: Assessing Parameter-Efficient Fine-Tuning for Fact Embedding in LLMs [0.0]
本稿では,質問応答対をFactualクラスとConceptualクラスに分類することで,微調整プロセスの改善に焦点をあてる。 2つの異なるLlama-2モデルはこれらの分類に基づいて微調整され、GPT-3.5 TurboやGeminiのような大型モデルを用いて評価される。以上の結果から,概念データセットでトレーニングされたモデルは,実データセットでトレーニングしたモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-03T03:26:30Z)
Benchmarking Android Malware Detection: Rethinking the Role of Traditional and Deep Learning Models [6.9053043489744015]
Androidのマルウェア検出は、従来の機械学習(ML)とディープラーニング(DL)の両方のアプローチを用いて、広範囲に研究されている。多くの最先端検出モデルは優れた性能を主張するが、限られた比較に頼っていることが多い。これにより、DLベースのアプローチのパフォーマンスの堅牢性と、よりシンプルで効率的なMLモデルの潜在的監視に関する懸念が高まる。
論文参考訳（メタデータ） (2025-02-20T20:56:05Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
Numerical Literals in Link Prediction: A Critical Examination of Models and Datasets [2.5999037208435705]
数値リテラルを組み込んだリンク予測モデルは、既存のベンチマークデータセットに対してわずかに改善されている。モデルが数値リテラルを使用するのに実際に優れているのか、あるいはグラフ構造を利用するのに優れているのかは、不明である。本稿では,数値リテラルを組み込んだLPモデルの評価手法を提案する。
論文参考訳（メタデータ） (2024-07-25T17:55:33Z)
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文参考訳（メタデータ） (2024-02-18T03:40:06Z)
Large Language Model Routing with Benchmark Datasets [40.42044096089315]
通常、単一のモデルがすべてのタスクやユースケースで最高の精度を達成することはない。そこで我々は,この選択のための"ルータ"モデルを学習するために,ベンチマークデータセットを再利用した新しい定式化を提案する。本稿では,この問題をバイナリ分類タスクの集合に還元できることを示す。
論文参考訳（メタデータ） (2023-09-27T17:08:40Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。 Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文参考訳（メタデータ） (2023-09-14T17:45:51Z)
Using Explainable Boosting Machine to Compare Idiographic and Nomothetic Approaches for Ecological Momentary Assessment Data [2.0824228840987447]
本稿では,非線形解釈型機械学習(ML)モデルを用いた分類問題について検討する。木々の様々なアンサンブルは、不均衡な合成データセットと実世界のデータセットを用いて線形モデルと比較される。 2つの実世界のデータセットのうちの1つで、知識蒸留法は改善されたAUCスコアを達成する。
論文参考訳（メタデータ） (2022-04-04T17:56:37Z)
Deep Learning Models for Knowledge Tracing: Review and Empirical Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文参考訳（メタデータ） (2021-12-30T14:19:27Z)
Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。 Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文参考訳（メタデータ） (2021-06-01T22:33:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。