論文の概要: Learning how to approve updates to machine learning algorithms in
non-stationary settings
- arxiv url: http://arxiv.org/abs/2012.07278v1
- Date: Mon, 14 Dec 2020 05:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 08:43:45.713454
- Title: Learning how to approve updates to machine learning algorithms in
non-stationary settings
- Title(参考訳): 非定常環境で機械学習アルゴリズムのアップデートを承認する方法を学ぶ
- Authors: Jean Feng
- Abstract要約: FDAは機械学習アルゴリズムの修正を自律的に承認できるポリシーをデザインしようとしている。
モニタリングデータを蓄積して修正を承認する方法を学習する学習から評価へのアプローチについて検討する。
- 参考スコア(独自算出の注目度): 4.94950858749529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning algorithms in healthcare have the potential to continually
learn from real-world data generated during healthcare delivery and adapt to
dataset shifts. As such, the FDA is looking to design policies that can
autonomously approve modifications to machine learning algorithms while
maintaining or improving the safety and effectiveness of the deployed models.
However, selecting a fixed approval strategy, a priori, can be difficult
because its performance depends on the stationarity of the data and the quality
of the proposed modifications. To this end, we investigate a
learning-to-approve approach (L2A) that uses accumulating monitoring data to
learn how to approve modifications. L2A defines a family of strategies that
vary in their "optimism''---where more optimistic policies have faster approval
rates---and searches over this family using an exponentially weighted average
forecaster. To control the cumulative risk of the deployed model, we give L2A
the option to abstain from making a prediction and incur some fixed abstention
cost instead. We derive bounds on the average risk of the model deployed by
L2A, assuming the distributional shifts are smooth. In simulation studies and
empirical analyses, L2A tailors the level of optimism for each problem-setting:
It learns to abstain when performance drops are common and approve beneficial
modifications quickly when the distribution is stable.
- Abstract(参考訳): ヘルスケアの機械学習アルゴリズムは、医療提供中に生成された現実世界のデータから継続的に学習し、データセットシフトに適応できる可能性がある。
そのためFDAは、機械学習アルゴリズムの修正を自律的に承認し、デプロイされたモデルの安全性と有効性を維持または改善できるポリシーの設計を検討している。
しかし、データの定常性と提案した修正の質に依存するため、事前承認という固定された承認戦略を選択することは困難である。
そこで本研究では,モニタリングデータを蓄積して修正を承認する方法を学習するL2A(Learning-to-approve approach)について検討する。
L2Aは、より楽観的な政策がより速い承認率を持つ「最適化」で異なる戦略のファミリーを定義し、指数的に重み付けされた平均予測器を用いて、このファミリーを探索する。
デプロイされたモデルの累積リスクを制御するため、L2Aに予測を中止するオプションを与え、代わりに固定的な停止コストを発生させる。
分布シフトが滑らかなことを前提として,L2Aが展開するモデルの平均的リスクを導出する。
シミュレーション研究と実証分析では、L2Aは各問題設定に対する最適化のレベルを調整している。
関連論文リスト
- Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning [12.112619241073158]
オフラインの強化学習では、アウト・オブ・ディストリビューションの課題が強調される。
既存の手法は、しばしば政策規則化を通じて学習されたポリシーを制約する。
適応アドバンテージ誘導政策正規化(A2PR)を提案する。
論文 参考訳(メタデータ) (2024-05-30T10:20:55Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Confidence Attention and Generalization Enhanced Distillation for
Continuous Video Domain Adaptation [62.458968086881555]
連続ビデオドメイン適応(CVDA、Continuous Video Domain Adaptation)は、ソースモデルが個々の変更対象ドメインに適応する必要があるシナリオである。
CVDAの課題に対処するため,遺伝子組み換え型自己知識解離(CART)を用いた信頼性保証ネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-18T16:40:10Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Uncertainty-Aware Policy Optimization: A Robust, Adaptive Trust Region
Approach [8.325359814939517]
データが乏しい時でも安定した性能を発揮できるよう、深いポリシー最適化手法を提案します。
得られたアルゴリズムである不確実性認識地域政策最適化は、学習プロセスを通じて存在する不確実性レベルに適応する堅牢なポリシー更新を生成する。
論文 参考訳(メタデータ) (2020-12-19T21:51:23Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z) - Approval policies for modifications to Machine Learning-Based Software
as a Medical Device: A study of bio-creep [7.305019142196582]
FDAは、マーケティングに先立ってロックアルゴリズムを承認し、市場前のレビューを別々に行うために将来のアップデートを要求する。
本稿では,オンライン仮説テスト問題として,承認ポリシーの設計について述べる。
単純なポリシーを検討中ですが、必ずしもエラー率の保証を提供していません。
論文 参考訳(メタデータ) (2019-12-28T06:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。