論文の概要: Distributionally Robust Coreset Selection under Covariate Shift
- arxiv url: http://arxiv.org/abs/2501.14253v1
- Date: Fri, 24 Jan 2025 05:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:58:20.489983
- Title: Distributionally Robust Coreset Selection under Covariate Shift
- Title(参考訳): 共変量シフト下におけるロバストコアセットの選択
- Authors: Tomonari Tanaka, Hiroyuki Hanada, Hanting Yang, Tatsuya Aoyama, Yu Inatsu, Satoshi Akahane, Yoshito Okura, Noriaki Hashimoto, Taro Murayama, Hanju Lee, Shinya Kojima, Ichiro Takeuchi,
- Abstract要約: コアセットの選択は、トレーニングデータを減らすためのアプローチである。
すべてのデプロイメントシナリオでうまく機能するトレーニングデータの効果的なサブセットを選択するのは難しいです。
そこで我々は,DRCS(Distributally Robust Coreset Selection)を提案する。
- 参考スコア(独自算出の注目度): 14.979902937312099
- License:
- Abstract: Coreset selection, which involves selecting a small subset from an existing training dataset, is an approach to reducing training data, and various approaches have been proposed for this method. In practical situations where these methods are employed, it is often the case that the data distributions differ between the development phase and the deployment phase, with the latter being unknown. Thus, it is challenging to select an effective subset of training data that performs well across all deployment scenarios. We therefore propose Distributionally Robust Coreset Selection (DRCS). DRCS theoretically derives an estimate of the upper bound for the worst-case test error, assuming that the future covariate distribution may deviate within a defined range from the training distribution. Furthermore, by selecting instances in a way that suppresses the estimate of the upper bound for the worst-case test error, DRCS achieves distributionally robust training instance selection. This study is primarily applicable to convex training computation, but we demonstrate that it can also be applied to deep learning under appropriate approximations. In this paper, we focus on covariate shift, a type of data distribution shift, and demonstrate the effectiveness of DRCS through experiments.
- Abstract(参考訳): 既存のトレーニングデータセットから小さなサブセットを選択することを含むコアセット選択は、トレーニングデータの削減のためのアプローチであり、この方法ではさまざまなアプローチが提案されている。
これらの手法を用いる現実的な状況では、開発フェーズと展開フェーズの間にデータ分布が異なる場合が多く、後者は未知である。
したがって、すべてのデプロイメントシナリオでうまく機能するトレーニングデータの効果的なサブセットを選択するのは難しい。
そこで我々は,DRCS(Dis Distributionally Robust Coreset Selection)を提案する。
DRCSは、将来の共変量分布がトレーニング分布から定義された範囲内にあると仮定して、最悪のケースのテスト誤差の上限値の推定を理論的に導出する。
さらに、最悪のテストエラーの上限値の推定を抑える方法でインスタンスを選択することで、DRCSは分散的に堅牢なトレーニングインスタンス選択を実現する。
本研究は主に凸トレーニング計算に適用できるが,適切な近似の下での深層学習にも適用可能であることを示す。
本稿では,データ分散シフトの一種である共変量シフトに着目し,実験によるDRCSの有効性を実証する。
関連論文リスト
- Distributionally Robust Safe Sample Elimination under Covariate Shift [16.85444622474742]
1つのトレーニングデータセットを使用して、わずかに異なるデータ分布をまたいだ複数のモデルをトレーニングする、機械学習のセットアップについて検討する。
分散ロバスト(DR)最適化と安全なサンプルスクリーニング(SSS)を組み合わせたDRSSS法を提案する。
この方法の主な利点は、縮小データセットでトレーニングされたモデルが、可能なすべての異なる環境において、フルデータセットでトレーニングされたモデルと同等に実行されることである。
論文 参考訳(メタデータ) (2024-06-10T01:46:42Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Deep Stable Learning for Out-Of-Distribution Generalization [27.437046504902938]
深層ニューラルネットワークに基づくアプローチは、同様の分布を持つデータとトレーニングデータをテストする際に顕著なパフォーマンスを達成した。
トレーニングとテストデータ間の分散シフトの影響を排除することは、パフォーマンス向上の深層モデルの構築に不可欠です。
トレーニングサンプルの学習重みによる特徴間の依存関係を除去し,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-04-16T03:54:21Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z) - Robust Correction of Sampling Bias Using Cumulative Distribution
Functions [19.551668880584973]
変数ドメインとバイアス付きデータセットは、トレーニングとターゲット分布の違いにつながる可能性がある。
これを緩和するための現在のアプローチは、しばしばトレーニングとターゲット確率密度関数の比率を推定することに依存する。
論文 参考訳(メタデータ) (2020-10-23T22:13:00Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z) - Wasserstein Distributionally Robust Optimization: Theory and Applications in Machine Learning [20.116219345579154]
科学、工学、経済学における決定問題は、サンプルを通して間接的にしか観測できない不確実なパラメータによって影響を受ける。
データ駆動意思決定の目標は、見つからないテストサンプルでうまく機能する、有限個のトレーニングサンプルから決定を学習することである。
ワッサーシュタインの分布的ロバストな最適化が統計的学習に興味深い影響をもたらすことを示す。
論文 参考訳(メタデータ) (2019-08-23T09:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。