論文の概要: Learnability of Learning Performance and Its Application to Data
Valuation
- arxiv url: http://arxiv.org/abs/2107.06336v1
- Date: Tue, 13 Jul 2021 18:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:16:20.198831
- Title: Learnability of Learning Performance and Its Application to Data
Valuation
- Title(参考訳): 学習性能の学習可能性とデータ評価への応用
- Authors: Tianhao Wang, Yu Yang, Ruoxi Jia
- Abstract要約: ほとんどの機械学習(ML)タスクでは、与えられたデータセットで学習パフォーマンスを評価するには、集中的な計算が必要である。
学習性能を効率的に推定する能力は、アクティブラーニング、データ品質管理、データバリュエーションといった幅広いアプリケーションに恩恵をもたらす可能性がある。
最近の実証研究では、多くの一般的なMLモデルに対して、少量のサンプルを用いて任意の入力データセットの学習性能を予測するパラメトリックモデルを正確に学習できることが示されている。
- 参考スコア(独自算出の注目度): 11.78594243870616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For most machine learning (ML) tasks, evaluating learning performance on a
given dataset requires intensive computation. On the other hand, the ability to
efficiently estimate learning performance may benefit a wide spectrum of
applications, such as active learning, data quality management, and data
valuation. Recent empirical studies show that for many common ML models, one
can accurately learn a parametric model that predicts learning performance for
any given input datasets using a small amount of samples. However, the
theoretical underpinning of the learnability of such performance prediction
models is still missing. In this work, we develop the first theoretical
analysis of the ML performance learning problem. We propose a relaxed notion
for submodularity that can well describe the behavior of learning performance
as a function of input datasets. We give a learning algorithm that achieves a
constant-factor approximation under certain assumptions. Further, we give a
learning algorithm that achieves arbitrarily small error based on a newly
derived structural result. We then discuss a natural, important use case of
learning performance learning -- data valuation, which is known to suffer
computational challenges due to the requirement of estimating learning
performance for many data combinations. We show that performance learning can
significantly improve the accuracy of data valuation.
- Abstract(参考訳): ほとんどの機械学習(ml)タスクでは、与えられたデータセットでの学習性能を評価するには集中的な計算が必要です。
一方、学習性能を効率的に推定する能力は、アクティブラーニング、データ品質管理、データバリュエーションといった幅広いアプリケーションに恩恵をもたらす可能性がある。
最近の実証研究では、多くの一般的なMLモデルに対して、少量のサンプルを用いて任意の入力データセットの学習性能を予測するパラメトリックモデルを正確に学習できることが示されている。
しかし、そのような性能予測モデルの学習可能性の理論的基礎はいまだに欠けている。
本研究では,MLの性能学習問題の理論的解析を初めて行う。
本稿では,入力データセットの関数として学習性能の挙動をうまく記述できる部分モジュラリティの緩和概念を提案する。
一定の仮定の下で定数近似を実現する学習アルゴリズムを与える。
さらに,新たに導出した構造結果に基づいて任意に小さな誤差を発生させる学習アルゴリズムを与える。
次に、多くのデータの組み合わせで学習性能を推定する必要性から計算上の課題に苦しむデータバリュエーションを学習パフォーマンス学習の自然な、重要なユースケースについて論じる。
性能学習はデータのバリュエーションの精度を大幅に向上できることを示す。
関連論文リスト
- Theoretical Analysis of Learned Database Operations under Distribution Shift through Distribution Learnability [0.8594140167290097]
本稿では、動的データセットにおける学習モデルの性能に関する最初の理論的特徴について述べる。
本結果は,学習モデルによって達成可能な新しい理論特性を示し,モデルの性能に限界を与える。
本分析では,将来,学習したデータベース操作の分析の基礎となる,分散学習可能性フレームワークと新たな理論ツールを開発する。
論文 参考訳(メタデータ) (2024-11-09T17:47:05Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - How to unlearn a learned Machine Learning model ? [0.0]
機械学習モデルを学習し、その能力を視覚化するためのエレガントなアルゴリズムを提示します。
基礎となる数学的理論を解明し、所望のデータに対する未学習モデルの性能と望ましくないデータに対する無知の両方を評価するための具体的な指標を確立する。
論文 参考訳(メタデータ) (2024-10-13T17:38:09Z) - Data Augmentation for Sparse Multidimensional Learning Performance Data Using Generative AI [17.242331892899543]
学習パフォーマンスデータは、適応学習における正しい解答や問題解決の試みを記述している。
学習性能データは、適応的なアイテム選択のため、ほとんどの実世界のアプリケーションでは、非常にスパースな(80%(sim)90%の欠落)傾向にある。
本稿では,学習者のデータの分散性に対処するために,学習者のデータを拡張するための体系的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T00:25:07Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - An Entropy-Based Model for Hierarchical Learning [3.1473798197405944]
実世界のデータセットに共通する特徴は、データドメインがマルチスケールであることである。
本稿では,このマルチスケールデータ構造を利用した学習モデルを提案する。
階層的な学習モデルは、人間の論理的かつ進歩的な学習メカニズムにインスパイアされている。
論文 参考訳(メタデータ) (2022-12-30T13:14:46Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。
我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文 参考訳(メタデータ) (2022-09-29T08:16:52Z) - What Makes Good Contrastive Learning on Small-Scale Wearable-based
Tasks? [59.51457877578138]
本研究では,ウェアラブル型行動認識タスクにおけるコントラスト学習について検討する。
本稿では,PyTorchライブラリのtextttCL-HAR について述べる。
論文 参考訳(メタデータ) (2022-02-12T06:10:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。