論文の概要: Multi-Study Boosting: Theoretical Considerations for Merging vs.
Ensembling
- arxiv url: http://arxiv.org/abs/2207.04588v1
- Date: Mon, 11 Jul 2022 02:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 13:32:36.725777
- Title: Multi-Study Boosting: Theoretical Considerations for Merging vs.
Ensembling
- Title(参考訳): マルチスタディブースティング:メルジング対組立の理論的考察
- Authors: Cathy Shyr, Pragya Sur, Giovanni Parmigiani and Prasad Patil
- Abstract要約: クロススタディの再現性は、予測の一般化性を強調する強力なモデル評価基準である。
本研究では, 予測・アウトカム関係における潜在的不均一性の存在下での促進アルゴリズムについて検討した。
我々は,1)すべての学習をマージし,単一のモデルを訓練する,2)マルチスタディ・アンサンブル(multi-study ensembling)という2つのマルチスタディ・ラーニング戦略を比較した。
- 参考スコア(独自算出の注目度): 2.252304836689618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-study replicability is a powerful model evaluation criterion that
emphasizes generalizability of predictions. When training cross-study
replicable prediction models, it is critical to decide between merging and
treating the studies separately. We study boosting algorithms in the presence
of potential heterogeneity in predictor-outcome relationships across studies
and compare two multi-study learning strategies: 1) merging all the studies and
training a single model, and 2) multi-study ensembling, which involves training
a separate model on each study and ensembling the resulting predictions. In the
regression setting, we provide theoretical guidelines based on an analytical
transition point to determine whether it is more beneficial to merge or to
ensemble for boosting with linear learners. In addition, we characterize a
bias-variance decomposition of estimation error for boosting with
component-wise linear learners. We verify the theoretical transition point
result in simulation and illustrate how it can guide the decision on merging
vs. ensembling in an application to breast cancer gene expression data.
- Abstract(参考訳): クロススタディの再現性は、予測の一般化性を強調する強力なモデル評価基準である。
クロススタディレプリカブル予測モデルをトレーニングする場合、研究のマージと処理を別々に決定することが重要である。
我々は,予測・アウトカム関係における潜在的不均一性の存在下での促進アルゴリズムについて研究し,2つのマルチスタディ学習戦略を比較した。
1)すべての研究と訓練を1つのモデルに統合し、
2)マルチスタディ・アンサンブルは,各研究で個別のモデルを訓練し,その結果の予測をアンサンブルする。
回帰設定では,解析的遷移点に基づく理論的指針を提供し,マージがより有益であるか,あるいは線形学習者との協調が重要であるかを判断する。
さらに,成分単位線形学習者によるブースティングのための推定誤差の偏分散分解を特徴付ける。
本研究は, 乳がん遺伝子の発現データに対するマージ対アンサンブルの決定をいかに導くか, シミュレーションによる理論的遷移点の検証を行った。
関連論文リスト
- Cross-Entropy Is All You Need To Invert the Data Generating Process [29.94396019742267]
経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。
近年の自己教師型学習の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。
標準分類タスクにおいても,モデルが線形変換までの変動の基底構造因子の表現を学習することが証明された。
論文 参考訳(メタデータ) (2024-10-29T09:03:57Z) - Generative vs. Discriminative modeling under the lens of uncertainty quantification [0.929965561686354]
本稿では,生成的アプローチと識別的アプローチの比較分析を行った。
両手法が,不確実性を考慮した推論において,様々な情報源からの情報を活用する能力を比較する。
本稿では,両手法の教師あり学習と,検討されたモデリング手法と互換性のあるセミ教師あり学習を実現するための一般的なサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:32:43Z) - Understanding Forgetting in Continual Learning with Linear Regression [21.8755265936716]
連続的な学習は、複数のタスクを逐次学習することに焦点を当てており、近年大きな注目を集めている。
線形回帰モデルにおいて, 線形回帰モデルをグラディエント・ディッセンス(Gradient Descent)を用いて, 忘れることの一般的な理論的解析を行う。
十分なデータサイズを考慮に入れれば、集団データ共分散行列の固有値が大きいタスクが後で訓練されるようなシーケンス内のタスクの配置は、忘れが増す傾向にあることを実証する。
論文 参考訳(メタデータ) (2024-05-27T18:33:37Z) - Convergence Behavior of an Adversarial Weak Supervision Method [10.409652277630133]
Weak Supervisionは、機械学習のサブ領域を仮定するパラダイムである。
ラベル付きデータを用いて最新の機械学習手法を訓練することにより、大量のラベル付きデータを取得するコストを改善することができる。
ツムブのルールを組み合わせるための2つのアプローチは、2つのキャンプに分かれ、統計的推定の異なるイデオロギーを反映している。
論文 参考訳(メタデータ) (2024-05-25T02:33:17Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Less is More: Mitigate Spurious Correlations for Open-Domain Dialogue
Response Generation Models by Causal Discovery [52.95935278819512]
本研究で得られたCGDIALOGコーパスに基づくオープンドメイン応答生成モデルのスプリアス相関に関する最初の研究を行った。
因果探索アルゴリズムに着想を得て,反応生成モデルの学習と推論のための新しいモデル非依存手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T06:33:48Z) - Benign-Overfitting in Conditional Average Treatment Effect Prediction
with Linear Regression [14.493176427999028]
線形回帰モデルを用いて条件平均処理効果(CATE)の予測における良性過剰適合理論について検討した。
一方,IPW-learnerは確率スコアが分かっていればリスクをゼロに収束させるが,T-learnerはランダムな割り当て以外の一貫性を達成できないことを示す。
論文 参考訳(メタデータ) (2022-02-10T18:51:52Z) - Nonparametric Estimation of Heterogeneous Treatment Effects: From Theory
to Learning Algorithms [91.3755431537592]
プラグイン推定と擬似出力回帰に依存する4つの幅広いメタ学習戦略を解析する。
この理論的推論を用いて、アルゴリズム設計の原則を導出し、分析を実践に翻訳する方法について強調する。
論文 参考訳(メタデータ) (2021-01-26T17:11:40Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。