論文の概要: A Semiparametric Efficient Approach To Label Shift Estimation and
Quantification
- arxiv url: http://arxiv.org/abs/2211.04274v1
- Date: Mon, 7 Nov 2022 07:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 17:30:18.469516
- Title: A Semiparametric Efficient Approach To Label Shift Estimation and
Quantification
- Title(参考訳): ラベルシフト推定と定量化に対するセミパラメトリック効率的アプローチ
- Authors: Brandon Tse Wei Chow
- Abstract要約: 本稿では、応答変数の分布の変化を推定するSELSEと呼ばれる新しい手順を提案する。
SELSEの正規化誤差は、その家系の他のどのアルゴリズムよりも最小の分散行列を持つことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer Learning is an area of statistics and machine learning research that
seeks answers to the following question: how do we build successful learning
algorithms when the data available for training our model is qualitatively
different from the data we hope the model will perform well on? In this thesis,
we focus on a specific area of Transfer Learning called label shift, also known
as quantification. In quantification, the aforementioned discrepancy is
isolated to a shift in the distribution of the response variable. In such a
setting, accurately inferring the response variable's new distribution is both
an important estimation task in its own right and a crucial step for ensuring
that the learning algorithm can adapt to the new data. We make two
contributions to this field. First, we present a new procedure called SELSE
which estimates the shift in the response variable's distribution. Second, we
prove that SELSE is semiparametric efficient among a large family of
quantification algorithms, i.e., SELSE's normalized error has the smallest
possible asymptotic variance matrix compared to any other algorithm in that
family. This family includes nearly all existing algorithms, including ACC/PACC
quantifiers and maximum likelihood based quantifiers such as EMQ and MLLS.
Empirical experiments reveal that SELSE is competitive with, and in many cases
outperforms, existing state-of-the-art quantification methods, and that this
improvement is especially large when the number of test samples is far greater
than the number of train samples.
- Abstract(参考訳): モデルトレーニングに利用可能なデータが、モデルがうまく機能することを期待しているデータと質的に異なる場合、私たちはどのように学習アルゴリズムを構築するのでしょうか?
この論文では、ラベルシフトと呼ばれる転送学習の特定の領域に焦点を当て、量子化(quantification)とも呼ばれる。
定量化において、上記不一致を応答変数の分布のシフトとして分離する。
このような設定では、応答変数の新たな分布を正確に推定することは、それ自体が重要な推定タスクであり、学習アルゴリズムが新しいデータに適応できることを保証する重要なステップである。
私たちはこの分野に2つの貢献をしている。
まず、応答変数の分布の変化を推定するSELSEと呼ばれる新しい手順を提案する。
第二に、SELSEは量子化アルゴリズムの大規模なファミリーの中で半パラメトリック効率が良いこと、すなわち、SELSEの正規化誤差は、そのファミリーの他のどのアルゴリズムよりも最小の漸近分散行列を持つことを示す。
この科には、ACC/PACC量子化器や、EMQやMLLSのような最大可能性に基づく量子化器を含む、ほとんど全ての既存のアルゴリズムが含まれている。
実証実験により,SELSEは既存の最先端の定量化手法よりも優れており,試験サンプル数が列車サンプル数よりはるかに多い場合には,この改良が特に重要であることが明らかになった。
関連論文リスト
- Collaborative Learning with Different Labeling Functions [7.228285747845779]
我々は、$n$のデータ分布ごとに正確な分類器を学習することを目的とした、協調型PAC学習の亜種について研究する。
データ分布がより弱い実現可能性の仮定を満たす場合、サンプル効率の学習は依然として可能であることを示す。
論文 参考訳(メタデータ) (2024-02-16T04:32:22Z) - Learning Hidden Markov Models Using Conditional Samples [72.20944611510198]
本稿では,隠れマルコフモデル(HMM)の学習における計算複雑性について述べる。
本稿では,HMMの条件分布からサンプルを問合せする対話型アクセスモデルを提案する。
具体的には、正確な条件付き確率に対するクエリアクセスが可能な設定において、HMMを学習するための効率的なアルゴリズムを得る。
論文 参考訳(メタデータ) (2023-02-28T16:53:41Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Engineering the Neural Automatic Passenger Counter [0.0]
我々は、信頼性、性能、そして品質のカウントを向上させるために、機械学習の様々な側面を探求し、活用する。
アンサンブル量子化のようなアグリゲーション技術がバイアスを減少させる方法を示し、その結果の全体的拡散について考察する。
論文 参考訳(メタデータ) (2022-03-02T14:56:11Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - The Integrity of Machine Learning Algorithms against Software Defect
Prediction [0.0]
本報告では,Liangらが開発したオンラインシーケンス・エクストリーム・ラーニング・マシン(OS-ELM)の性能を解析する。
OS-ELMは従来のディープニューラルネットワークよりも高速にトレーニングし、常にグローバルな最適解に収束する。
この分析は、NASAグループが実施する3つのプロジェクトKC1、PC4、PC3で実施される。
論文 参考訳(メタデータ) (2020-09-05T17:26:56Z) - On the Robustness of Active Learning [0.7340017786387767]
Active Learningは、機械学習アルゴリズムをトレーニングする上で最も有用なサンプルを特定する方法に関するものだ。
十分な注意とドメイン知識を持っていないことがよくあります。
そこで本研究では,Simpson の多様性指標に基づく新たな "Sum of Squared Logits" 手法を提案する。
論文 参考訳(メタデータ) (2020-06-18T09:07:23Z) - Fase-AL -- Adaptation of Fast Adaptive Stacking of Ensembles for
Supporting Active Learning [0.0]
本研究は,Active Learning を用いて非ラベルのインスタンスで分類モデルを誘導する FASE-AL アルゴリズムを提案する。
このアルゴリズムは、正しく分類されたインスタンスの割合で有望な結果を得る。
論文 参考訳(メタデータ) (2020-01-30T17:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。