論文の概要: Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning
- arxiv url: http://arxiv.org/abs/2210.05320v1
- Date: Tue, 11 Oct 2022 10:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:46:42.460126
- Title: Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning
- Title(参考訳): 合成モデルの組み合わせ:-教師なしアンサンブル学習へのインスタンスワイズアプローチ
- Authors: Alex J. Chan and Mihaela van der Schaar
- Abstract要約: ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
- 参考スコア(独自算出の注目度): 92.89846887298852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consider making a prediction over new test data without any opportunity to
learn from a training set of labelled data - instead given access to a set of
expert models and their predictions alongside some limited information about
the dataset used to train them. In scenarios from finance to the medical
sciences, and even consumer practice, stakeholders have developed models on
private data they either cannot, or do not want to, share. Given the value and
legislation surrounding personal information, it is not surprising that only
the models, and not the data, will be released - the pertinent question
becoming: how best to use these models? Previous work has focused on global
model selection or ensembling, with the result of a single final model across
the feature space. Machine learning models perform notoriously poorly on data
outside their training domain however, and so we argue that when ensembling
models the weightings for individual instances must reflect their respective
domains - in other words models that are more likely to have seen information
on that instance should have more attention paid to them. We introduce a method
for such an instance-wise ensembling of models, including a novel
representation learning step for handling sparse high-dimensional domains.
Finally, we demonstrate the need and generalisability of our method on
classical machine learning tasks as well as highlighting a real world use case
in the pharmacological setting of vancomycin precision dosing.
- Abstract(参考訳): ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する — 代わりに、トレーニングに使用するデータセットに関する制限された情報とともに、専門家モデルとその予測へのアクセスを与えられる。
金融や医療、さらには消費者の慣行といったシナリオでは、利害関係者は共有できない、あるいはしたくない、プライベートなデータのモデルを開発した。
個人情報を取り巻く価値と法律を考えると、データではなくモデルだけがリリースされるのは驚くべきことではない。
これまでの作業はグローバルモデルの選択やアンサンブルに重点を置いており、機能領域をまたいだ単一の最終モデルの結果である。
しかし、機械学習モデルはトレーニングドメイン以外のデータでは悪名高い性能を発揮するので、センセンシングモデルでは個々のインスタンスの重み付けはそれぞれのドメインを反映する必要がある、つまり、そのインスタンスに関する情報を見た可能性が高いモデルは、それらに対してより多くの注意を払うべきである、と主張する。
本稿では、疎い高次元領域を扱うための新しい表現学習ステップを含む、モデルのインスタンス単位の組立手法を提案する。
最後に,従来の機械学習タスクにおける本手法の必要性と汎用性を実証するとともに,バンコマイシンの薬理学的精度測定における実世界のユースケースを強調した。
関連論文リスト
- Addressing Bias Through Ensemble Learning and Regularized Fine-Tuning [0.2812395851874055]
本稿では,AIモデルのバイアスを取り除くために,複数の手法を用いた包括的アプローチを提案する。
我々は、データ分割、局所訓練、正規化ファインチューニングを通じて、事前訓練されたモデルのカウンターバイアスで複数のモデルを訓練する。
我々は、単一のバイアスのないニューラルネットワークをもたらす知識蒸留を用いて、ソリューションを結論付けている。
論文 参考訳(メタデータ) (2024-02-01T09:24:36Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - On Inductive Biases for Machine Learning in Data Constrained Settings [0.0]
この論文は、データ制約された設定で表現力のあるモデルを学ぶという問題に対する異なる答えを探求する。
ニューラルネットワークを学ぶために、大きなデータセットに頼るのではなく、データ構造を反映した既知の関数によって、いくつかのモジュールを置き換えるつもりです。
我々のアプローチは「帰納的バイアス」のフードの下に置かれており、これは探索するモデルの空間を制限する手元にあるデータの仮説として定義することができる。
論文 参考訳(メタデータ) (2023-02-21T14:22:01Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Forecasting COVID-19 spreading trough an ensemble of classical and
machine learning models: Spain's case study [0.0]
我々は、新型コロナウイルスのパンデミックの近い将来の進化を予測するために、人口モデルと機械学習モデルのアンサンブルの適用性を評価する。
オープンかつパブリックなデータセットのみに依存しており、発生率、ワクチン接種、人間の移動性、気象データに頼っています。
論文 参考訳(メタデータ) (2022-07-12T08:16:44Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。