論文の概要: Robust Data Fusion via Subsampling
- arxiv url: http://arxiv.org/abs/2508.12048v1
- Date: Sat, 16 Aug 2025 13:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.546342
- Title: Robust Data Fusion via Subsampling
- Title(参考訳): サブサンプリングによるロバストデータ融合
- Authors: Jing Wang, HaiYing Wang, Kun Chen,
- Abstract要約: 外部データが大きすぎるが外部データが汚染されている間、ターゲットデータのサイズが制限されている現実的なシナリオを考察する。
本研究では,外部データのサブサンプルを用いた様々な移動学習手法について検討し,基礎となる真のモデルから逸脱した外れ値を考慮した。
本研究では, サンプルサイズ, 信号強度, サンプリングレート, オフレーヤの大きさ, モデル誤差分布のテール挙動などについて, 非漸近誤差境界について検討する。
- 参考スコア(独自算出の注目度): 6.739241253621366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data fusion and transfer learning are rapidly growing fields that enhance model performance for a target population by leveraging other related data sources or tasks. The challenges lie in the various potential heterogeneities between the target and external data, as well as various practical concerns that prevent a na\"ive data integration. We consider a realistic scenario where the target data is limited in size while the external data is large but contaminated with outliers; such data contamination, along with other computational and operational constraints, necessitates proper selection or subsampling of the external data for transfer learning. To our knowledge,transfer learning and subsampling under data contamination have not been thoroughly investigated. We address this gap by studying various transfer learning methods with subsamples of the external data, accounting for outliers deviating from the underlying true model due to arbitrary mean shifts. Two subsampling strategies are investigated: one aimed at reducing biases and the other at minimizing variances. Approaches to combine these strategies are also introduced to enhance the performance of the estimators. We provide non-asymptotic error bounds for the transfer learning estimators, clarifying the roles of sample sizes, signal strength, sampling rates, magnitude of outliers, and tail behaviors of model error distributions, among other factors. Extensive simulations show the superior performance of the proposed methods. Additionally, we apply our methods to analyze the risk of hard landings in A380 airplanes by utilizing data from other airplane types,demonstrating that robust transfer learning can improve estimation efficiency for relatively rare airplane types with the help of data from other types of airplanes.
- Abstract(参考訳): データ融合と転送学習は、他の関連するデータソースやタスクを活用することで、ターゲット人口のモデルパフォーマンスを向上させる、急速に成長する分野である。
課題は、ターゲットデータと外部データの間の様々な潜在的な不均一性に加えて、na\\"データ統合を防ぐさまざまな実践的な懸念にある。
このようなデータ汚染は、他の計算および運用上の制約とともに、転送学習のために外部データの適切な選択やサブサンプリングを必要とする。
データ汚染下でのトランスファー学習とサブサンプリングは、我々の知る限り、十分に研究されていない。
このギャップは、外部データのサブサンプルを用いて様々な伝達学習手法を研究し、任意の平均シフトにより基礎となる真のモデルから逸脱する外れ値を考慮することで解決する。
2つのサブサンプリング戦略について検討した。1つはバイアスの低減を目的としたもので、もう1つは分散の最小化を目的としたものである。
これらの戦略を組み合わせるためのアプローチも導入され、推定器の性能が向上する。
本研究では, サンプルサイズ, 信号強度, サンプリングレート, オフレーヤの大きさ, モデル誤差分布の尾の挙動など, 伝達学習推定器の非漸近誤差境界について明らかにする。
大規模なシミュレーションでは,提案手法の優れた性能を示す。
さらに,A380航空機におけるハードランディングのリスクを,他の航空機からのデータを利用して解析し,ロバストトランスファー学習が他の航空機からのデータを用いて比較的稀な航空機の予測効率を向上させることを実証した。
関連論文リスト
- Heterogeneous transfer learning for high dimensional regression with feature mismatch [1.6385815610837167]
我々は、情報源やプロキシドメインから新たなターゲットドメインに知識を移すことの問題を考察し、おそらく異なる特徴を持つ高次元回帰モデルを学ぶ。
ほとんどの均質移動とマルチタスク学習法は、ターゲットドメインとプロキシドメインが同じ特徴空間を持つと仮定する。
本稿では,プロキシデータのプロジェクションステップを通じて,欠落した特徴と観察された特徴の関係を学習する2段階の手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T01:29:31Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Multi-Source Conformal Inference Under Distribution Shift [41.701790856201036]
複数のバイアスのあるデータソースを活用することにより,対象個体数の分布自由な予測区間を得るという課題を考察する。
対象集団および源集団における未観測結果の定量値に対する効率的な影響関数を導出する。
本稿では、効率向上のための重み付き情報ソースとバイアス低減のための重み付き非情報ソースに対するデータ適応戦略を提案する。
論文 参考訳(メタデータ) (2024-05-15T13:33:09Z) - Group Distributionally Robust Dataset Distillation with Risk Minimization [17.05513836324578]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
我々は、我々のアプローチに理論的根拠を与え、その効果的な一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Improving Transferability for Cross-domain Trajectory Prediction via
Neural Stochastic Differential Equation [41.09061877498741]
外部要因とデータ取得戦略によるデータセット間での相違がある。
大規模データセットでトレーニングされたモデルの熟練した性能は、他の小規模データセットでの転送可能性に制限がある。
本稿では,ニューラル微分方程式(NSDE)の連続的利用に基づく不一致の緩和手法を提案する。
提案手法の有効性は,一般的なベンチマークデータセットであるnuScenes,Argoverse,Lyft,InterinterAction,Open Motionデータセット上で,最先端の軌道予測モデルに対して検証される。
論文 参考訳(メタデータ) (2023-12-26T06:50:29Z) - SCME: A Self-Contrastive Method for Data-free and Query-Limited Model
Extraction Attack [18.998300969035885]
モデル抽出は、代替モデル上で逆例を生成することによって、ターゲットモデルを騙す。
本稿では,偽データの合成におけるクラス間およびクラス内多様性を考慮した,SCME という新しいデータフリーモデル抽出手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T10:41:45Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。