論文の概要: Thinking Beyond Distributions in Testing Machine Learned Models
- arxiv url: http://arxiv.org/abs/2112.03057v1
- Date: Mon, 6 Dec 2021 14:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 15:38:37.642126
- Title: Thinking Beyond Distributions in Testing Machine Learned Models
- Title(参考訳): 機械学習モデルテストにおける分布を超えた思考
- Authors: Negar Rostamzadeh, Ben Hutchinson, Christina Greer, Vinodkumar
Prabhakaran
- Abstract要約: 機械学習(ML)コミュニティにおけるテストプラクティスは、テストデータセットに対して測定された学習モデルの予測パフォーマンスを評価することに集中している。
このテストの観点は、研究者や開発者が他の堅牢性障害源を調査することを積極的に妨げている、と私たちは主張する。
我々は、厳格な実践に機械学習テストの視点を広げるための一連の勧告を提示した。
- 参考スコア(独自算出の注目度): 13.723244709042874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Testing practices within the machine learning (ML) community have centered
around assessing a learned model's predictive performance measured against a
test dataset, often drawn from the same distribution as the training dataset.
While recent work on robustness and fairness testing within the ML community
has pointed to the importance of testing against distributional shifts, these
efforts also focus on estimating the likelihood of the model making an error
against a reference dataset/distribution. We argue that this view of testing
actively discourages researchers and developers from looking into other sources
of robustness failures, for instance corner cases which may have severe
undesirable impacts. We draw parallels with decades of work within software
engineering testing focused on assessing a software system against various
stress conditions, including corner cases, as opposed to solely focusing on
average-case behaviour. Finally, we put forth a set of recommendations to
broaden the view of machine learning testing to a rigorous practice.
- Abstract(参考訳): マシンラーニング(ML)コミュニティ内のテストプラクティスは、トレーニングデータセットと同じ分布から引き出されるテストデータセットに対して、学習したモデルの予測パフォーマンスを評価することに集中している。
MLコミュニティにおけるロバストネスと公平性テストに関する最近の研究は、分散シフトに対するテストの重要性を指摘しているが、これらの取り組みは、参照データセット/配信に対してエラーを発生させるモデルの可能性の推定にも焦点を当てている。
このテストの考え方は、研究者や開発者が他のロバストネス障害の原因を調べることを積極的に妨げている、と私たちは主張しています。
私たちは、ソフトウェアエンジニアリングテストにおける数十年の作業と並行して、ソフトウェアシステムのさまざまなストレス条件に対する評価に重点を置いています。
最後に、機械学習テストの視点を厳格な実践に広げるための一連の推奨事項を提示した。
関連論文リスト
- Training on the Test Task Confounds Evaluation and Emergence [16.32378359459614]
テストタスクのトレーニングは、相対モデル評価と創発的能力に関するクレームの両方に矛盾があることを示します。
評価前のタスク関連データと比較し,各モデルを微調整することにより,テストタスクのトレーニングを効果的に調整する手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T17:57:58Z) - MedBN: Robust Test-Time Adaptation against Malicious Test Samples [11.397666167665484]
テスト時間適応(TTA)は、トレーニングデータとテストデータの間の予期せぬ分散シフトによるパフォーマンス劣化に対処する、有望なソリューションとして登場した。
以前の研究では、テストバッチのごく一部が不正に操作された場合でも、TTA内のセキュリティ脆弱性が明らかになった。
テスト時間推論におけるバッチ正規化層内の統計量推定に中央値のロバスト性を利用する中央値バッチ正規化(MedBN)を提案する。
論文 参考訳(メタデータ) (2024-03-28T11:33:02Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Provable Robustness for Streaming Models with a Sliding Window [51.85182389861261]
オンラインコンテンツレコメンデーションや株式市場分析のようなディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。
入力ストリーム上の固定サイズのスライディングウインドウを使用するモデルに対して、ロバスト性証明を導出する。
私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。
論文 参考訳(メタデータ) (2023-03-28T21:02:35Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [143.14128737978342]
新たなパラダイムであるテスト時適応は、事前トレーニングされたモデルをテスト中にラベルのないデータに適用し、予測を行う可能性がある。
このパラダイムの最近の進歩は、推論に先立って自己適応モデルのトレーニングにラベルのないデータを活用するという大きな利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z) - MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。
最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。
モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:55:11Z) - Learn then Test: Calibrating Predictive Algorithms to Achieve Risk
Control [67.52000805944924]
Learn then Test (LTT)は、機械学習モデルを校正するフレームワークである。
私たちの主な洞察は、リスクコントロール問題を複数の仮説テストとして再設計することです。
我々は、コンピュータビジョンの詳細な実例を用いて、コア機械学習タスクの新しいキャリブレーション手法を提供するために、我々のフレームワークを使用します。
論文 参考訳(メタデータ) (2021-10-03T17:42:03Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。