論文の概要: Heterogeneous Multisource Transfer Learning via Model Averaging for Positive-Unlabeled Data
- arxiv url: http://arxiv.org/abs/2511.10919v1
- Date: Fri, 14 Nov 2025 03:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.408092
- Title: Heterogeneous Multisource Transfer Learning via Model Averaging for Positive-Unlabeled Data
- Title(参考訳): 正の非ラベルデータに対するモデル平均化による異種多元移動学習
- Authors: Jialei Liu, Jun Liao, Kuangnan Fang,
- Abstract要約: 本研究では,異種データソースからの情報を直接データ共有なしで統合するトランスファー学習フレームワークを提案する。
各ソースドメインタイプに対して、調整されたロジスティック回帰モデルを実行し、平均化によって知識をPUターゲットドメインに転送する。
提案手法は,特にラベル付きデータや異種環境において,予測精度とロバスト性において,他の比較手法よりも優れる。
- 参考スコア(独自算出の注目度): 2.030810815519794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Positive-Unlabeled (PU) learning presents unique challenges due to the lack of explicitly labeled negative samples, particularly in high-stakes domains such as fraud detection and medical diagnosis. To address data scarcity and privacy constraints, we propose a novel transfer learning with model averaging framework that integrates information from heterogeneous data sources - including fully binary labeled, semi-supervised, and PU data sets - without direct data sharing. For each source domain type, a tailored logistic regression model is conducted, and knowledge is transferred to the PU target domain through model averaging. Optimal weights for combining source models are determined via a cross-validation criterion that minimizes the Kullback-Leibler divergence. We establish theoretical guarantees for weight optimality and convergence, covering both misspecified and correctly specified target models, with further extensions to high-dimensional settings using sparsity-penalized estimators. Extensive simulations and real-world credit risk data analyses demonstrate that our method outperforms other comparative methods in terms of predictive accuracy and robustness, especially under limited labeled data and heterogeneous environments.
- Abstract(参考訳): PU(Positive-Unlabeled)学習は、特に不正検出や診断などの高い領域において、明示的にラベル付けされた負のサンプルが欠如していることから、ユニークな課題を呈している。
データ不足とプライバシの制約に対処するために,完全バイナリラベル付き,半教師付き,PUデータセットを含む異種データソースからの情報を直接データ共有なしで統合する,モデル平均化フレームワークを用いた新しいトランスファー学習を提案する。
各ソースドメインタイプに対して、調整されたロジスティック回帰モデルを実行し、平均化によって知識をPUターゲットドメインに転送する。
ソースモデルを組み合わせるための最適な重み付けは、クルバック・リーバーの発散を最小限に抑えるクロスバリデーション基準によって決定される。
重みの最適性および収束性に関する理論的保証を確立し、不特定および正しく指定されたターゲットモデルの両方をカバーし、スパーシティーペンタリゼーション推定器を用いた高次元設定をさらに拡張する。
大規模シミュレーションと実世界の信用リスクデータ分析により,本手法は,特にラベル付きデータや異種環境において,予測精度やロバスト性において,他の比較手法よりも優れていることが示された。
関連論文リスト
- AdapDISCOM: An Adaptive Sparse Regression Method for High-Dimensional Multimodal Data With Block-Wise Missingness and Measurement Errors [0.06633699479109359]
AdapDISCOMは適応的な直接スパース回帰法である。
我々は,AdapDISCOMが DisCOM, SCOM, CoCoLasso を一貫して上回っていることを示す。
本稿では、AdapDISCOMをアルツハイマー病神経画像イニシアチブ(ADNI)データに適用し、認知スコアの予測の改善と確立されたバイオマーカーの選択の信頼性を示す。
論文 参考訳(メタデータ) (2025-07-31T19:16:48Z) - Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - Statistical Analysis of Conditional Group Distributionally Robust Optimization with Cross-Entropy Loss [16.1456465253627]
本研究では、複数のソースドメインからラベル付きデータを入手でき、対象ドメインからラベルなしデータのみを観測できるマルチソース非教師付きドメイン適応について検討する。
本稿では,情報源領域からの条件付き結果分布の凸結合を最小化することにより,分類器を学習するグループ分散条件最適化フレームワークを提案する。
実験的なCG-DRO推定器の高速な統計的収束速度を,理論ブリッジとして機能する2つの代理極小最適化問題を構築することにより確立する。
論文 参考訳(メタデータ) (2025-07-14T04:21:23Z) - Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - Assumption-Lean Post-Integrated Inference with Surrogate Control Outcomes [6.448728765953916]
制御結果を用いて遅延不均一性を調整する頑健なポストインテグレート推論(PII)手法を提案する。
我々は、予測された直接効果推定に関する半パラメトリック推論を開発し、隠された仲介者、共同設立者、モデレーターを考慮に入れた。
提案された二重頑健な推定器は、最小の仮定と潜在的な不特定性の下で一貫性があり、効率的である。
論文 参考訳(メタデータ) (2024-10-07T12:52:38Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Distributionally Robust Learning for Multi-source Unsupervised Domain Adaptation [9.359714425373616]
対象ドメインの分布がソースドメインの分布と異なる場合、経験的リスクはよく機能しない。
我々は、複数のソースドメインからのラベル付きデータと対象ドメインからのラベルなしデータを活用する、教師なしのドメイン適応アプローチを開発する。
論文 参考訳(メタデータ) (2023-09-05T13:19:40Z) - On Balancing Bias and Variance in Unsupervised Multi-Source-Free Domain
Adaptation [6.2200089460762085]
マルチソースフリードメイン適応(MSFDA)の方法は、典型的には、ソースモデルによって生成された擬似ラベル付きデータを使用してターゲットモデルを訓練する。
得られた対象モデルの一般化誤差に基づく情報理論境界を開発する。
次に、ドメインアグリゲーション、選択的な擬似ラベル付け、共同機能アライメントといった3つの視点から、このトレードオフのバランスをとる方法についての洞察を提供します。
論文 参考訳(メタデータ) (2022-02-01T22:34:18Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Decomposed Adversarial Learned Inference [118.27187231452852]
我々は,DALI(Decomposed Adversarial Learned Inference)という新しいアプローチを提案する。
DALIは、データ空間とコード空間の両方の事前および条件分布を明示的に一致させる。
MNIST, CIFAR-10, CelebAデータセットにおけるDALIの有効性を検証する。
論文 参考訳(メタデータ) (2020-04-21T20:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。