論文の概要: Data Selection: A Surprisingly Effective and General Principle for
Building Small Interpretable Models
- arxiv url: http://arxiv.org/abs/2210.03921v2
- Date: Wed, 16 Aug 2023 17:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 17:51:24.390087
- Title: Data Selection: A Surprisingly Effective and General Principle for
Building Small Interpretable Models
- Title(参考訳): データ選択: 小さな解釈可能なモデルを構築するための驚くほど効果的で一般的な原則
- Authors: Abhishek Ghose
- Abstract要約: 我々は、正確な小さなモデルを構築するための効果的な戦略を実証的な証拠として提示する。
その戦略は、テストディストリビューションからデータを使うのではなく、トレーニングディストリビューションを学ぶことだ。
本稿では,クラスター説明木の構築,(2)プロトタイプに基づく分類,(3)ランダムフォレストを用いた分類の課題に適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present convincing empirical evidence for an effective and general
strategy for building accurate small models. Such models are attractive for
interpretability and also find use in resource-constrained environments. The
strategy is to learn the training distribution instead of using data from the
test distribution. The distribution learning algorithm is not a contribution of
this work; we highlight the broad usefulness of this simple strategy on a
diverse set of tasks, and as such these rigorous empirical results are our
contribution. We apply it to the tasks of (1) building cluster explanation
trees, (2) prototype-based classification, and (3) classification using Random
Forests, and show that it improves the accuracy of weak traditional baselines
to the point that they are surprisingly competitive with specialized modern
techniques.
This strategy is also versatile wrt the notion of model size. In the first
two tasks, model size is identified by number of leaves in the tree and the
number of prototypes respectively. In the final task involving Random Forests
the strategy is shown to be effective even when model size is determined by
more than one factor: number of trees and their maximum depth.
Positive results using multiple datasets are presented that are shown to be
statistically significant. These lead us to conclude that this strategy is both
effective, i.e, leads to significant improvements, and general, i.e., is
applicable to different tasks and model families, and therefore merits further
attention in domains that require small accurate models.
- Abstract(参考訳): 精度の高い小型モデルを構築するための効果的で一般的な戦略を示す実証的な証拠を提示する。
このようなモデルは解釈可能性に魅力的であり、リソース制約のある環境でも利用できる。
戦略は、テスト分布からデータを使うのではなく、トレーニング分布を学ぶことである。
分散学習アルゴリズムは,本研究の貢献ではない。多種多様なタスクセットにおいて,このシンプルな戦略の幅広い有用性を強調し,これらの厳密な経験的結果が貢献である。
本研究では,(1)クラスタ説明木の構築,(2)プロトタイプに基づく分類,(3)ランダムフォレストを用いた分類の課題に適用し,それらが驚くほど専門的近代技術と競合する点において,弱い伝統的な基準線の精度を向上させることを示す。
この戦略はモデルサイズの概念を多用している。
最初の2つのタスクでは、モデルのサイズは木の葉の数とプロトタイプの数によって識別される。
ランダムな森林を含む最終タスクでは、モデルのサイズが1つ以上の要因によって決定された場合でも、戦略が有効であることが示される。
複数のデータセットを用いた正の結果は統計的に有意であることが示されている。
これらのことから、この戦略は、すなわち、大きな改善をもたらすこと、そして一般的には、異なるタスクやモデルファミリーに適用できること、そしてより正確なモデルを必要とする領域において、さらなる注意を払わなければならない、という結論に至ります。
関連論文リスト
- A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Strategies and impact of learning curve estimation for CNN-based image
classification [0.2678472239880052]
学習曲線は、一定の量のトレーニングデータによって機械学習モデルのパフォーマンスが向上する尺度である。
様々な応用やモデルにおいて、学習曲線は ― 大部分が ― 権力法的な行動に従うことが観察された。
モデルの学習曲線を、データの小さなサブセットでのトレーニングから推定することにより、完全なデータセットでのトレーニングに最適なモデルのみを考慮する必要がある。
論文 参考訳(メタデータ) (2023-10-12T16:28:25Z) - An Analysis of Initial Training Strategies for Exemplar-Free
Class-Incremental Learning [36.619804184427245]
CIL(Class-Incremental Learning)は、データストリームから分類モデルを構築することを目的としている。
破滅的な忘れ物のため、過去のクラスの例を保存できない場合、CILは特に困難である。
大量のデータに対する自己管理的な方法で事前訓練されたモデルの使用は、最近勢いを増している。
論文 参考訳(メタデータ) (2023-08-22T14:06:40Z) - Generative Forests [23.554594285885273]
私たちは、表データという最も一般的な形式のデータのうちの1つを表わすデータのための生成AIに焦点を合わせています。
本稿では,このような課題に適合する森林モデルの新しい強力なクラスと,強力な収束保証を備えた簡単なトレーニングアルゴリズムを提案する。
これらのタスクに関する追加実験により、我々のモデルは、多種多様な技術手法に対する優れた競争相手になり得ることが判明した。
論文 参考訳(メタデータ) (2023-08-07T14:58:53Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Improving Label Quality by Jointly Modeling Items and Annotators [68.8204255655161]
雑音アノテータから基底真理ラベルを学習するための完全ベイズ的枠組みを提案する。
我々のフレームワークは、ラベル分布上の生成的ベイズソフトクラスタリングモデルを古典的なDavidとSkeneのジョイントアノテータデータモデルに分解することでスケーラビリティを保証する。
論文 参考訳(メタデータ) (2021-06-20T02:15:20Z) - Interpretable MTL from Heterogeneous Domains using Boosted Tree [8.095372074268685]
マルチタスク学習(MTL)は,複数のタスクの一般化性能の向上を目的としている。
本稿では,増木理論に倣って,二段階法を提案する。
ベンチマークと実世界のデータセットによる実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2020-03-16T08:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。