論文の概要: Fairness Hub Technical Briefs: Definition and Detection of Distribution Shift
- arxiv url: http://arxiv.org/abs/2405.14186v1
- Date: Thu, 23 May 2024 05:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 18:55:13.762797
- Title: Fairness Hub Technical Briefs: Definition and Detection of Distribution Shift
- Title(参考訳): フェアネスハブ技術 : 配電シフトの定義と検出
- Authors: Nicolas Acevedo, Carmen Cortez, Chris Brooks, Rene Kizilcec, Renzhe Yu,
- Abstract要約: 分散シフトは機械学習タスクにおいて一般的な状況であり、モデルのトレーニングに使用されるデータは、モデルが現実世界に適用されるデータとは異なる。
本稿では,教育環境における分布変化の定義と検出に焦点をあてる。
- 参考スコア(独自算出の注目度): 0.5825410941577593
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Distribution shift is a common situation in machine learning tasks, where the data used for training a model is different from the data the model is applied to in the real world. This issue arises across multiple technical settings: from standard prediction tasks, to time-series forecasting, and to more recent applications of large language models (LLMs). This mismatch can lead to performance reductions, and can be related to a multiplicity of factors: sampling issues and non-representative data, changes in the environment or policies, or the emergence of previously unseen scenarios. This brief focuses on the definition and detection of distribution shifts in educational settings. We focus on standard prediction problems, where the task is to learn a model that takes in a series of input (predictors) $X=(x_1,x_2,...,x_m)$ and produces an output $Y=f(X)$.
- Abstract(参考訳): 分散シフトは機械学習タスクにおいて一般的な状況であり、モデルのトレーニングに使用されるデータは、モデルが現実世界に適用されるデータとは異なる。
この問題は、標準的な予測タスクから時系列予測、より最近の大規模言語モデル(LLM)の応用に至るまで、複数の技術的な設定で発生します。
このミスマッチはパフォーマンスの低下につながる可能性があり、問題や非表現的なデータのサンプリング、環境やポリシーの変更、あるいはこれまで見つからなかったシナリオの出現など、さまざまな要因に関連している。
本稿では,教育環境における分布変化の定義と検出に焦点をあてる。
そこでは,一連の入力(予測器)である$X=(x_1,x_2,...,x_m)$を学習し,出力$Y=f(X)$を生成する。
関連論文リスト
- Adaptive Test-Time Personalization for Federated Learning [51.25437606915392]
テスト時パーソナライズド・フェデレーション・ラーニング(TTPFL)と呼ばれる新しい設定を導入する。
TTPFLでは、クライアントはテスト期間中にラベル付きデータに頼ることなく、教師なしの方法でグローバルモデルをローカルに適応する。
本稿では,ソースドメイン間の分散シフトから,モデル内の各モジュールの適応率を適応的に学習する ATP という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T20:42:47Z) - SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2023-04-06T17:36:23Z) - Explanation Shift: How Did the Distribution Shift Impact the Model? [23.403838118256907]
本研究では,分布変化による説明特性の変化について検討した。
我々は、合成例と実世界のデータセットを用いて、異なる種類の分布シフトを分析する。
我々は、実験を再現するために使用されるコードと同様に、オープンソースのPythonパッケージでメソッドをリリースします。
論文 参考訳(メタデータ) (2023-03-14T17:13:01Z) - Diagnosing Model Performance Under Distribution Shift [9.143551270841858]
予測モデルは、トレーニングディストリビューションとは異なるターゲットディストリビューションにデプロイされた場合、パフォーマンスが良くない。
提案手法は,1)トレーニングの難易度が高いが頻繁な例の増加,2)特徴と成果の関係の変化,3)トレーニング中の頻度の低い例や見当たらない例のパフォーマンス低下など,パフォーマンスの低下を用語に分解する。
論文 参考訳(メタデータ) (2023-03-03T15:27:16Z) - Dataset Interfaces: Diagnosing Model Failures Using Controllable
Counterfactual Generation [85.13934713535527]
分散シフトは、機械学習モデルの主要な障害源である。
入力データセットとユーザが指定したシフトを与えられたフレームワークは、望ましいシフトを示すインスタンスを返す。
本稿では,このデータセットインターフェースをImageNetデータセットに適用することにより,分散シフトの多種多様さにまたがるモデル動作の学習が可能になることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:56:26Z) - Addressing Distribution Shift at Test Time in Pre-trained Language
Models [3.655021726150369]
State-of-the-the-art pre-trained Language Model (PLM)は、多くの言語処理タスクに適用された場合、他のモデルよりも優れている。
PLMは分散シフト下で性能が低下することが判明した。
本研究では,分散シフト下での試験時間におけるPLMの性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2022-12-05T16:04:54Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Mixture of basis for interpretable continual learning with distribution
shifts [1.6114012813668934]
データ分散のシフトを伴う環境での継続的な学習は、いくつかの現実世界のアプリケーションでは難しい問題である。
本稿では,この問題設定に対処するために,ベイシモデル(MoB)の混合方式を提案する。
論文 参考訳(メタデータ) (2022-01-05T22:53:15Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - WILDS: A Benchmark of in-the-Wild Distribution Shifts [157.53410583509924]
分散シフトは、ワイルドにデプロイされた機械学習システムの精度を実質的に低下させることができる。
分散シフトの多様な範囲を反映した8つのベンチマークデータセットのキュレーションコレクションであるWILDSを紹介します。
本研究は, 標準訓練の結果, 分布性能よりも, 分布域外性能が有意に低下することを示す。
論文 参考訳(メタデータ) (2020-12-14T11:14:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。