論文の概要: An Efficient Framework for Monitoring Subgroup Performance of Machine
Learning Systems
- arxiv url: http://arxiv.org/abs/2212.08312v1
- Date: Fri, 16 Dec 2022 07:24:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 14:47:53.910640
- Title: An Efficient Framework for Monitoring Subgroup Performance of Machine
Learning Systems
- Title(参考訳): 機械学習システムのサブグループパフォーマンス監視のための効率的なフレームワーク
- Authors: Huong Ha
- Abstract要約: 機械学習システムのサブグループ性能を監視するための効率的なフレームワークを提案する。
具体的には、ラベル付きデータの限られた数で、最もパフォーマンスの悪いデータサブグループを見つけることを目的としている。
- 参考スコア(独自算出の注目度): 6.926773812961358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monitoring machine learning systems post deployment is critical to ensure the
reliability of the systems. Particularly importance is the problem of
monitoring the performance of machine learning systems across all the data
subgroups (subpopulations). In practice, this process could be prohibitively
expensive as the number of data subgroups grows exponentially with the number
of input features, and the process of labelling data to evaluate each
subgroup's performance is costly. In this paper, we propose an efficient
framework for monitoring subgroup performance of machine learning systems.
Specifically, we aim to find the data subgroup with the worst performance using
a limited number of labeled data. We mathematically formulate this problem as
an optimization problem with an expensive black-box objective function, and
then suggest to use Bayesian optimization to solve this problem. Our
experimental results on various real-world datasets and machine learning
systems show that our proposed framework can retrieve the worst-performing data
subgroup effectively and efficiently.
- Abstract(参考訳): デプロイメント後の機械学習システムの監視は、システムの信頼性を保証するために重要である。
特に重要なのは、すべてのデータサブグループ(サブポピュレーション)における機械学習システムのパフォーマンス監視の問題である。
実際には,データサブグループの数が指数関数的に増加し,各サブグループの性能を評価するためのラベル付けプロセスがコストがかかるため,このプロセスは違法にコストがかかる可能性がある。
本稿では,機械学習システムのサブグループ性能を監視するための効率的なフレームワークを提案する。
具体的には、ラベル付きデータの限られた数で、最もパフォーマンスの悪いデータサブグループを見つけることを目的とする。
我々は,高額なブラックボックス目的関数を用いた最適化問題としてこの問題を数学的に定式化し,ベイズ最適化を用いてこの問題を解決することを提案する。
各種実世界のデータセットと機械学習システムに関する実験結果から,提案するフレームワークは,最もパフォーマンスの悪いデータサブグループを効果的かつ効率的に検索できることを示す。
関連論文リスト
- Multitask Learning Can Improve Worst-Group Outcomes [76.92646345152788]
マルチタスク学習(MTL)は、そのような広く使われている技法の一つである。
我々は,共同マルチタスク表現空間を正規化することにより,標準MTLを変更することを提案する。
正規化MTLアプローチは,平均群と最低群の両方でJTTを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-05T21:38:24Z) - FedCBO: Reaching Group Consensus in Clustered Federated Learning through
Consensus-based Optimization [1.911678487931003]
フェデレーション学習は、複数のユーザから学習モデルをトレーニングし、各ユーザが独自のデータセットを持ち、データのプライバシやコミュニケーション損失の制約に敏感な方法で統合することを目指している。
本稿では,コンセンサスに基づく最適化(CBO)のアイデアに触発された,グローバルでクラスタ化されたフェデレーション学習問題に対する新しい解決策を提案する。
我々の新しいCBO型法は、グループに不利な相互作用粒子のシステムに基づいている。
論文 参考訳(メタデータ) (2023-05-04T15:02:09Z) - Matched Machine Learning: A Generalized Framework for Treatment Effect
Inference With Learned Metrics [87.05961347040237]
我々は、機械学習ブラックボックスの柔軟性とマッチングの解釈可能性を組み合わせたフレームワークであるMatched Machine Learningを紹介する。
我々のフレームワークは機械学習を用いて、一致した単位を学習し、結果を推定する最適な指標を学習する。
一致機械学習のインスタンスはブラックボックスの機械学習手法と同等に動作し、類似した問題に対する既存のマッチング手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-04-03T19:32:30Z) - Learning by Grouping: A Multilevel Optimization Framework for Improving
Fairness in Classification without Losing Accuracy [19.84719054826755]
場合によっては、特定の社会集団に対する偏見や差別を示すことによって、AIシステムは不公平である場合もある。
そこで我々は,MLモデルを学習し,様々な問題集合を個別のサブグループに分類し,各サブグループを解く新しい機械学習フレームワークを提案する。
提案するフレームワークは,3段階の最適化問題として定式化された3段階の学習を含む。
論文 参考訳(メタデータ) (2023-04-02T08:45:08Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Causal Scene BERT: Improving object detection by searching for
challenging groups of data [125.40669814080047]
コンピュータビジョンアプリケーションは、物体検出のようなタスクのためにニューラルネットワークでパラメータ化された学習ベースの知覚モジュールに依存している。
これらのモジュールは、トレーニングプロセスに固有のバイアスのため、予想される誤差が低いが、データの非定型的なグループに対して高い誤差を持つことが多い。
本研究の主な貢献は,シミュレートされたシーンに対して因果的介入を行うことにより,前向きにそのようなグループを発見する擬似オートマチック手法である。
論文 参考訳(メタデータ) (2022-02-08T05:14:16Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - GLISTER: Generalization based Data Subset Selection for Efficient and
Robust Learning [11.220278271829699]
GeneraLIzationベースのデータSubset selecTion for Efficient and Robust LearningフレームワークであるGlisterを紹介します。
パラメータ更新とともに反復的にデータ選択を行う反復オンラインアルゴリズムglister-onlineを提案する。
筆者らのフレームワークは,(a) と (c) の場合に) 効率, 精度の両面で向上し, 他の最先端の堅牢な学習アルゴリズムと比較して, より効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-19T08:41:34Z) - Leveraging Semi-Supervised Learning for Fairness using Neural Networks [49.604038072384995]
機械学習に基づく意思決定システムの公平性に対する懸念が高まっている。
本稿では,ラベルのないデータから得られるニューラルネットワークを用いた半教師付きアルゴリズムを提案する。
提案したSSFairと呼ばれるモデルは、ラベルのないデータの情報を活用して、トレーニングデータのバイアスを軽減する。
論文 参考訳(メタデータ) (2019-12-31T09:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。