論文の概要: When are Deep Networks really better than Random Forests at small sample
sizes?
- arxiv url: http://arxiv.org/abs/2108.13637v1
- Date: Tue, 31 Aug 2021 06:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 14:36:53.534195
- Title: When are Deep Networks really better than Random Forests at small sample
sizes?
- Title(参考訳): Deep Networksは、小さなサンプルサイズでRandom Forestsより本当に優れているのか?
- Authors: Haoyin Xu, Michael Ainsworth, Yu-Chung Peng, Madi Kusmanov, Sambit
Panda, Joshua T. Vogelstein
- Abstract要約: ランダム・フォレスト(RF)とディープ・ネットワーク(DN)は、現在の科学文献で最も人気のある機械学習手法である。
それぞれのアプローチが優れている条件と領域をさらに探求し、確立したいと考えています。
私たちの焦点は、少なくとも1万のサンプルを持つデータセットに焦点を当てています。
- 参考スコア(独自算出の注目度): 2.5556070792288934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Random forests (RF) and deep networks (DN) are two of the most popular
machine learning methods in the current scientific literature and yield
differing levels of performance on different data modalities. We wish to
further explore and establish the conditions and domains in which each approach
excels, particularly in the context of sample size and feature dimension. To
address these issues, we tested the performance of these approaches across
tabular, image, and audio settings using varying model parameters and
architectures. Our focus is on datasets with at most 10,000 samples, which
represent a large fraction of scientific and biomedical datasets. In general,
we found RF to excel at tabular and structured data (image and audio) with
small sample sizes, whereas DN performed better on structured data with larger
sample sizes. Although we plan to continue updating this technical report in
the coming months, we believe the current preliminary results may be of
interest to others.
- Abstract(参考訳): ランダムフォレスト(rf)とディープネットワーク(dn)は、現在の科学文献において最も人気のある機械学習手法の2つであり、異なるデータモダリティで異なるレベルのパフォーマンスをもたらす。
それぞれのアプローチが優れている条件とドメイン、特にサンプルサイズと機能ディメンジョンのコンテキストをさらに探究し、確立したいと考えています。
これらの問題に対処するため、様々なモデルパラメータとアーキテクチャを用いて、表、画像、オーディオ設定にまたがってこれらのアプローチの性能を検証した。
私たちの焦点は、1万以上のサンプルを持つデータセットであり、科学および生物医学のデータセットのごく一部を表しています。
一般に、RFは小さなサンプルサイズで表や構造データ(画像と音声)に優れるが、DNはより大きなサンプルサイズで構造データに優れていた。
このテクニカルレポートの更新は今後数ヶ月にわたって継続する予定ですが、現在の予備的な結果が他の人たちにとって興味深いものと思われるのです。
関連論文リスト
- Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Data Augmentations in Deep Weight Spaces [89.45272760013928]
そこで本研究では,Mixup法に基づく新しい拡張手法を提案する。
既存のベンチマークと新しいベンチマークでこれらのテクニックのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-11-15T10:43:13Z) - Weight Predictor Network with Feature Selection for Small Sample Tabular
Biomedical Data [7.923088041693465]
本研究では,高次元および小型サンプルデータからニューラルネットワークを学習するための特徴選択付き重み予測器ネットワークを提案する。
実世界の9つのバイオメディカルデータセットを評価し、WPFSが他の標準や最近の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-28T18:17:10Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - A Data-Centric AI Paradigm Based on Application-Driven Fine-grained
Dataset Design [2.2223262422197907]
本稿では,産業アプリケーションによって駆動されるデータセットのきめ細かい設計のための新しいパラダイムを提案する。
データおよびアプリケーション要件の本質的な特徴に応じて,正および負のサンプルセットを柔軟に選択する。
従来のデータ設計手法と比較して,本手法はより良い結果が得られ,誤報を効果的に低減する。
論文 参考訳(メタデータ) (2022-09-20T03:56:53Z) - On the data requirements of probing [20.965328323152608]
本稿では,データセットの探索に必要なデータサンプル数を推定する新しい手法を提案する。
我々のフレームワークは、ニューラルネットワークNLPモデルの診断のために、探索データセットを体系的に構築するのに役立つ。
論文 参考訳(メタデータ) (2022-02-25T16:27:06Z) - Multi-Domain Joint Training for Person Re-Identification [51.73921349603597]
ReID(Deep Learning-based person Re-IDentification)は、優れたパフォーマンスを達成するために、大量のトレーニングデータを必要とすることが多い。
多様な環境からより多くのトレーニングデータを集めることで、ReIDのパフォーマンスが向上する傾向にある。
本稿では,パラメータを様々な要因に適応させることができる,Domain-Camera-Sample Dynamic Network (DCSD) というアプローチを提案する。
論文 参考訳(メタデータ) (2022-01-06T09:20:59Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - Convolution Neural Networks for Semantic Segmentation: Application to
Small Datasets of Biomedical Images [0.0]
この論文は、小さなバイオメディカルデータセットに適用した場合、畳み込みニューラルネットワーク(CNN)によって生成されたセグメンテーション結果が互いにどう異なるかを研究する。
2つのワーキングデータセットは、生物医学的な研究領域から来ている。
論文 参考訳(メタデータ) (2020-11-01T19:09:12Z) - A Close Look at Deep Learning with Small Data [0.0]
モデル複雑性は、クラス毎に数個のサンプルしか利用できない場合に重要な要素であることを示す。
また、標準的なデータ拡張であっても、認識性能を大きなマージンで向上させることができることを示す。
論文 参考訳(メタデータ) (2020-03-28T17:11:29Z) - NWPU-Crowd: A Large-Scale Benchmark for Crowd Counting and Localization [101.13851473792334]
我々は,5,109枚の画像からなる大規模集束群集NWPU-Crowdを構築し,合計2,133,375個の点と箱を付加したアノテートヘッドを構築した。
他の実世界のデータセットと比較すると、様々な照明シーンを含み、最大密度範囲 (020,033) を持つ。
本稿では,データ特性について述べるとともに,主要なSOTA(State-of-the-art)手法の性能を評価し,新たなデータに生じる問題を分析する。
論文 参考訳(メタデータ) (2020-01-10T09:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。