論文の概要: X-Factor: Quality Is a Dataset-Intrinsic Property
- arxiv url: http://arxiv.org/abs/2505.22813v2
- Date: Wed, 04 Jun 2025 16:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.458753
- Title: X-Factor: Quality Is a Dataset-Intrinsic Property
- Title(参考訳): X-Factor:品質はデータセット固有の特性
- Authors: Josiah Couch, Miao Li, Rima Arnaout, Ramy Arnaout,
- Abstract要約: モデルアーキテクチャ、データセットサイズ、クラスバランスの3つの要因がテスト時のパフォーマンスに影響を与えることが示されているが、完全には説明できない。
データセットの品質は、データセットの構成クラスの品質という、より基本的なものの創発的な特性であることを示す。
- 参考スコア(独自算出の注目度): 15.189752345508822
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the universal quest to optimize machine-learning classifiers, three factors -- model architecture, dataset size, and class balance -- have been shown to influence test-time performance but do not fully account for it. Previously, evidence was presented for an additional factor that can be referred to as dataset quality, but it was unclear whether this was actually a joint property of the dataset and the model architecture, or an intrinsic property of the dataset itself. If quality is truly dataset-intrinsic and independent of model architecture, dataset size, and class balance, then the same datasets should perform better (or worse) regardless of these other factors. To test this hypothesis, here we create thousands of datasets, each controlled for size and class balance, and use them to train classifiers with a wide range of architectures, from random forests and support-vector machines to deep networks. We find that classifier performance correlates strongly by subset across architectures ($R^2=0.79$), supporting quality as an intrinsic property of datasets independent of dataset size and class balance and of model architecture. Digging deeper, we find that dataset quality appears to be an emergent property of something more fundamental: the quality of datasets' constituent classes. Thus, quality joins size, class balance, and model architecture as an independent correlate of performance and a separate target for optimizing machine-learning-based classification.
- Abstract(参考訳): 機械学習の分類を最適化する普遍的な探求において、モデルアーキテクチャ、データセットサイズ、クラスバランスという3つの要因がテスト時のパフォーマンスに影響を与えることが示されているが、完全には説明できない。
以前は、データセットの品質と呼ばれる追加の要因に関するエビデンスが提示されていたが、これがデータセットとモデルアーキテクチャの結合性なのか、あるいはデータセット自体の固有の性質なのかは定かではなかった。
品質が真にデータセット固有のものであり、モデルアーキテクチャやデータセットサイズ、クラスバランスに依存していない場合、同じデータセットは、これらの他の要因に関係なく、より良い(あるいはより悪い)パフォーマンスを持つべきです。
この仮説をテストするために、私たちは何千ものデータセットを作成し、それぞれサイズとクラスのバランスを制御し、ランダムなフォレストやサポートベクターマシンからディープネットワークまで、幅広いアーキテクチャで分類器を訓練します。
分類器の性能はアーキテクチャのサブセット(R^2=0.79$)によって強く相関し、データセットのサイズやクラスバランス、モデルアーキテクチャに依存しないデータセットの本質的な特性として品質をサポートする。
より深く掘り下げると、データセットの品質は、より基本的なもの、すなわちデータセットの構成クラスの品質の創発的な特性であるように見える。
このように、品質は、パフォーマンスの独立した相関としてのサイズ、クラスバランス、モデルアーキテクチャと結合し、機械学習ベースの分類を最適化するための別々のターゲットとなる。
関連論文リスト
- Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - The Impact of Different Backbone Architecture on Autonomous Vehicle
Dataset [120.08736654413637]
バックボーンアーキテクチャによって抽出された特徴の質は、全体的な検出性能に大きな影響を与える可能性がある。
本研究は,KITTI,NuScenes,BDDの3つの自律走行車データセットを評価し,対象検出タスクにおける異なるバックボーンアーキテクチャの性能を比較した。
論文 参考訳(メタデータ) (2023-09-15T17:32:15Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - Assessing Dataset Quality Through Decision Tree Characteristics in
Autoencoder-Processed Spaces [0.30458514384586394]
データセットの品質がモデルトレーニングとパフォーマンスに深く影響していることを示します。
以上の結果から,適切な特徴選択,適切なデータボリューム,データ品質の重要性が浮き彫りになった。
この研究は、データアセスメントのプラクティスに関する貴重な洞察を提供し、より正確で堅牢な機械学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2023-06-27T11:33:31Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Boxhead: A Dataset for Learning Hierarchical Representations [16.036906124241835]
階層的に構造化された基底構造生成因子を持つデータセットであるBoxheadを紹介する。
階層的モデルは一般に階層的に配置された因子の非絡み合いという点で単層VAEよりも優れる。
論文 参考訳(メタデータ) (2021-10-07T17:15:25Z) - Adaptive Attribute and Structure Subspace Clustering Network [49.040136530379094]
自己表現型サブスペースクラスタリングネットワークを提案する。
まず、入力データサンプルを表現する自動エンコーダについて検討する。
そこで我々は, 局所的な幾何学的構造を捉えるために, 混合符号と対称構造行列を構築した。
構築された属性構造と行列に対して自己表現を行い、親和性グラフを学習する。
論文 参考訳(メタデータ) (2021-09-28T14:00:57Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - SetVAE: Learning Hierarchical Composition for Generative Modeling of
Set-Structured Data [27.274328701618]
集合の階層的変分オートエンコーダであるSetVAEを提案する。
セットエンコーディングの最近の進歩に動機づけられて、我々は最初にセットを分割し、元のカーディナリティにパーティションを投影する注意深いモジュールの上にSetVAEを構築します。
我々は,本モデルが集合のサイズを示さずに一般化し,監督なしに興味深い部分集合関係を学習できることを実証する。
論文 参考訳(メタデータ) (2021-03-29T14:01:18Z) - Neural Ensemble Search for Uncertainty Estimation and Dataset Shift [67.57720300323928]
ニューラルネットワークのアンサンブルは、データセットシフトに対する精度、不確実性キャリブレーション、堅牢性の観点から、スタンドアロンネットワークよりも優れたパフォーマンスを実現する。
本稿では,アンサンブルをアンサンブルで自動構築する2つの手法を提案する。
得られたアンサンブルは、精度だけでなく、不確実なキャリブレーションやデータセットシフトに対する堅牢性の観点からも、深いアンサンブルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-15T17:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。