論文の概要: Accurate Small Models using Adaptive Sampling
- arxiv url: http://arxiv.org/abs/2210.03921v1
- Date: Sat, 8 Oct 2022 05:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 18:22:47.732198
- Title: Accurate Small Models using Adaptive Sampling
- Title(参考訳): 適応サンプリングを用いた高精度小型モデル
- Authors: Abhishek Ghose
- Abstract要約: テストデータと同じ分布からトレーニングデータを描画する代わりに、異なるトレーニング分布を学ぶことで、精度が向上することが多い。
これにより、解釈可能性やリソース制約のある環境に魅力的な、正確な小さなモデルを構築することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We highlight the utility of a certain property of model training: instead of
drawing training data from the same distribution as test data, learning a
different training distribution often improves accuracy, especially at small
model sizes. This provides a way to build accurate small models, which are
attractive for interpretability and resource-constrained environments. Here we
empirically show that this principle is both general and effective: it may be
used across tasks/model families, and it can augment prediction accuracy of
traditional models to the extent they are competitive with specialized
techniques. The tasks we consider are explainable clustering and
prototype-based classification. We also look at Random Forests to illustrate
how this principle may be applied to accommodate multiple size constraints,
e.g., number of trees and maximum depth per tree. Results using multiple
datasets are presented and are shown to be statistically significant.
- Abstract(参考訳): テストデータと同じ分布からトレーニングデータを描画するのではなく、異なるトレーニング分布を学習することで、特に小さなモデルサイズで精度が向上することが多い。
これにより、解釈可能性やリソース制約のある環境に魅力的な、正確な小さなモデルを構築することができる。
ここでは、この原理が一般的かつ効果的であることを実証的に示し、タスク/モデルファミリにまたがって使用することができ、従来のモデルの予測精度を専門技術と競合する程度に向上させることができる。
私たちが考えるタスクは、クラスタ化とプロトタイプベースの分類です。
また,木数や樹当たりの最大深さなど,複数のサイズの制約に対応するために,この原則がどのように適用されるかを説明するために,ランダムな森林についても検討する。
複数のデータセットを用いた結果が示され、統計的に有意であることが示されている。
関連論文リスト
- A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Strategies and impact of learning curve estimation for CNN-based image
classification [0.2678472239880052]
学習曲線は、一定の量のトレーニングデータによって機械学習モデルのパフォーマンスが向上する尺度である。
様々な応用やモデルにおいて、学習曲線は ― 大部分が ― 権力法的な行動に従うことが観察された。
モデルの学習曲線を、データの小さなサブセットでのトレーニングから推定することにより、完全なデータセットでのトレーニングに最適なモデルのみを考慮する必要がある。
論文 参考訳(メタデータ) (2023-10-12T16:28:25Z) - An Analysis of Initial Training Strategies for Exemplar-Free
Class-Incremental Learning [36.619804184427245]
CIL(Class-Incremental Learning)は、データストリームから分類モデルを構築することを目的としている。
破滅的な忘れ物のため、過去のクラスの例を保存できない場合、CILは特に困難である。
大量のデータに対する自己管理的な方法で事前訓練されたモデルの使用は、最近勢いを増している。
論文 参考訳(メタデータ) (2023-08-22T14:06:40Z) - Generative Forests [23.554594285885273]
私たちは、表データという最も一般的な形式のデータのうちの1つを表わすデータのための生成AIに焦点を合わせています。
本稿では,このような課題に適合する森林モデルの新しい強力なクラスと,強力な収束保証を備えた簡単なトレーニングアルゴリズムを提案する。
これらのタスクに関する追加実験により、我々のモデルは、多種多様な技術手法に対する優れた競争相手になり得ることが判明した。
論文 参考訳(メタデータ) (2023-08-07T14:58:53Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Improving Label Quality by Jointly Modeling Items and Annotators [68.8204255655161]
雑音アノテータから基底真理ラベルを学習するための完全ベイズ的枠組みを提案する。
我々のフレームワークは、ラベル分布上の生成的ベイズソフトクラスタリングモデルを古典的なDavidとSkeneのジョイントアノテータデータモデルに分解することでスケーラビリティを保証する。
論文 参考訳(メタデータ) (2021-06-20T02:15:20Z) - Interpretable MTL from Heterogeneous Domains using Boosted Tree [8.095372074268685]
マルチタスク学習(MTL)は,複数のタスクの一般化性能の向上を目的としている。
本稿では,増木理論に倣って,二段階法を提案する。
ベンチマークと実世界のデータセットによる実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2020-03-16T08:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。