論文の概要: Learning Individual Models for Imputation (Technical Report)
- arxiv url: http://arxiv.org/abs/2004.03436v1
- Date: Tue, 7 Apr 2020 14:36:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:50:55.366820
- Title: Learning Individual Models for Imputation (Technical Report)
- Title(参考訳): インキュベーションのための個別モデル学習(技術報告)
- Authors: Aoqian Zhang, Shaoxu Song, Yu Sun, Jianmin Wang
- Abstract要約: 欠落する値は、例えば、不均一なソース間の信頼性の低いセンサの読み取り、収集、送信などにより、一般的である。
有限領域上の分類されたデータ計算とは異なり、数値値には2つの問題がある:(1)スパーシリティ問題(英語版)、不完全性(英語版)は、(ほぼ)無限領域のために同じ/類似の値を共有する十分な完全隣人(英語版)を持たないかもしれない;(2)不均一性問題(英語版)、および異なるモデルが同じ(回帰)モデルに適合しないかもしれない。
- 参考スコア(独自算出の注目度): 40.554001427599445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing numerical values are prevalent, e.g., owing to unreliable sensor
reading, collection and transmission among heterogeneous sources. Unlike
categorized data imputation over a limited domain, the numerical values suffer
from two issues: (1) sparsity problem, the incomplete tuple may not have
sufficient complete neighbors sharing the same/similar values for imputation,
owing to the (almost) infinite domain; (2) heterogeneity problem, different
tuples may not fit the same (regression) model. In this study, enlightened by
the conditional dependencies that hold conditionally over certain tuples rather
than the whole relation, we propose to learn a regression model individually
for each complete tuple together with its neighbors. Our IIM, Imputation via
Individual Models, thus no longer relies on sharing similar values among the k
complete neighbors for imputation, but utilizes their regression results by the
aforesaid learned individual (not necessary the same) models. Remarkably, we
show that some existing methods are indeed special cases of our IIM, under the
extreme settings of the number l of learning neighbors considered in individual
learning. In this sense, a proper number l of neighbors is essential to learn
the individual models (avoid over-fitting or under-fitting). We propose to
adaptively learn individual models over various number l of neighbors for
different complete tuples. By devising efficient incremental computation, the
time complexity of learning a model reduces from linear to constant.
Experiments on real data demonstrate that our IIM with adaptive learning
achieves higher imputation accuracy than the existing approaches.
- Abstract(参考訳): 例えば、不均一なソース間のセンサの読み取り、収集、送信が信頼できないためである。
制限領域上の分類されたデータインプテーションとは異なり、(1)不完全タプルは(ほぼ)無限領域のため、インプテーションに対して同じ/類似の値を共有する十分な完全隣人を持たないかもしれないし、(2)異質性問題では異なるタプルは同じ(回帰)モデルに適合しないかもしれない。
本研究では,その関係ではなく,特定のタプルに条件付きで係わる条件依存性に着目して,各完全タプルに対する回帰モデルを隣人とともに学習することを提案する。
我々のIIMであるImputation via individual Modelsは、もはやk完全隣人間で同様の値を共有することに頼るのではなく、前述の学習した個人(同じではない)モデルによる回帰結果を利用する。
注目すべきは、既存の手法が、個々の学習において考慮される学習者の数 l の極端な設定の下で、我々のIIMの特別なケースであることである。
この意味では、隣人の適切な数 l は個々のモデル(過剰適合や不適合)を学ぶのに不可欠である。
提案手法は, 異なる完全タプルに対して, 近傍の様々な数 l に対して個別のモデルを適応的に学習するものである。
効率的なインクリメンタル計算を考案することにより、モデルを学習する時間の複雑さが線形から定数に減少する。
実データを用いた実験により,適応学習によるIIMは既存手法よりも高い計算精度が得られることが示された。
関連論文リスト
- Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis [17.989809995141044]
相関解析に基づくCCAマージを提案する。
2モデル以上のモデルがマージされた場合、CCAは過去の方法よりもはるかにうまく機能することを示す。
論文 参考訳(メタデータ) (2024-07-07T14:21:04Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Sharing pattern submodels for prediction with missing values [12.981974894538668]
機械学習の多くのアプリケーションでは欠落値は避けられず、トレーニング中もテスト時にも課題が提示される。
パターンサブモデル(パターンサブモデル)と呼ばれる別の手法を提案する。これは、テスト時に欠落した値に対して、予測を堅牢にし、パターンサブモデルの予測力を維持または改善させる。
論文 参考訳(メタデータ) (2022-06-22T15:09:40Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Characterizing and overcoming the greedy nature of learning in
multi-modal deep neural networks [62.48782506095565]
深層ニューラルネットワークにおける学習の欲張った性質から、モデルは一つのモダリティにのみ依存する傾向にあり、他のモダリティには不適合であることを示す。
本稿では,学習中のモーダル間の条件付き学習速度のバランスをとるアルゴリズムを提案し,グリージー学習の問題に対処できることを実証する。
論文 参考訳(メタデータ) (2022-02-10T20:11:21Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。