論文の概要: Learning how to approve updates to machine learning algorithms in
non-stationary settings
- arxiv url: http://arxiv.org/abs/2012.07278v1
- Date: Mon, 14 Dec 2020 05:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 08:43:45.713454
- Title: Learning how to approve updates to machine learning algorithms in
non-stationary settings
- Title(参考訳): 非定常環境で機械学習アルゴリズムのアップデートを承認する方法を学ぶ
- Authors: Jean Feng
- Abstract要約: FDAは機械学習アルゴリズムの修正を自律的に承認できるポリシーをデザインしようとしている。
モニタリングデータを蓄積して修正を承認する方法を学習する学習から評価へのアプローチについて検討する。
- 参考スコア(独自算出の注目度): 4.94950858749529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning algorithms in healthcare have the potential to continually
learn from real-world data generated during healthcare delivery and adapt to
dataset shifts. As such, the FDA is looking to design policies that can
autonomously approve modifications to machine learning algorithms while
maintaining or improving the safety and effectiveness of the deployed models.
However, selecting a fixed approval strategy, a priori, can be difficult
because its performance depends on the stationarity of the data and the quality
of the proposed modifications. To this end, we investigate a
learning-to-approve approach (L2A) that uses accumulating monitoring data to
learn how to approve modifications. L2A defines a family of strategies that
vary in their "optimism''---where more optimistic policies have faster approval
rates---and searches over this family using an exponentially weighted average
forecaster. To control the cumulative risk of the deployed model, we give L2A
the option to abstain from making a prediction and incur some fixed abstention
cost instead. We derive bounds on the average risk of the model deployed by
L2A, assuming the distributional shifts are smooth. In simulation studies and
empirical analyses, L2A tailors the level of optimism for each problem-setting:
It learns to abstain when performance drops are common and approve beneficial
modifications quickly when the distribution is stable.
- Abstract(参考訳): ヘルスケアの機械学習アルゴリズムは、医療提供中に生成された現実世界のデータから継続的に学習し、データセットシフトに適応できる可能性がある。
そのためFDAは、機械学習アルゴリズムの修正を自律的に承認し、デプロイされたモデルの安全性と有効性を維持または改善できるポリシーの設計を検討している。
しかし、データの定常性と提案した修正の質に依存するため、事前承認という固定された承認戦略を選択することは困難である。
そこで本研究では,モニタリングデータを蓄積して修正を承認する方法を学習するL2A(Learning-to-approve approach)について検討する。
L2Aは、より楽観的な政策がより速い承認率を持つ「最適化」で異なる戦略のファミリーを定義し、指数的に重み付けされた平均予測器を用いて、このファミリーを探索する。
デプロイされたモデルの累積リスクを制御するため、L2Aに予測を中止するオプションを与え、代わりに固定的な停止コストを発生させる。
分布シフトが滑らかなことを前提として,L2Aが展開するモデルの平均的リスクを導出する。
シミュレーション研究と実証分析では、L2Aは各問題設定に対する最適化のレベルを調整している。
関連論文リスト
- Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models [3.958317527488534]
大きな言語と視覚言語モデル(LLMs/VLMs)は、安全クリティカルなアプリケーションでますます使われている。
不確かさの定量化は、予測の信頼性を評価するのに役立ち、不確実性が高い場合の回避を可能にする。
本稿では,学習可能な禁忌法を提案し,強化学習(RL)と整形予測(CP)を統合して禁忌閾値を最適化する。
論文 参考訳(メタデータ) (2025-02-08T21:30:41Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning [12.112619241073158]
オフラインの強化学習では、アウト・オブ・ディストリビューションの課題が強調される。
既存の手法は、しばしば政策規則化を通じて学習されたポリシーを制約する。
適応アドバンテージ誘導政策正規化(A2PR)を提案する。
論文 参考訳(メタデータ) (2024-05-30T10:20:55Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Confidence Attention and Generalization Enhanced Distillation for
Continuous Video Domain Adaptation [62.458968086881555]
連続ビデオドメイン適応(CVDA、Continuous Video Domain Adaptation)は、ソースモデルが個々の変更対象ドメインに適応する必要があるシナリオである。
CVDAの課題に対処するため,遺伝子組み換え型自己知識解離(CART)を用いた信頼性保証ネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-18T16:40:10Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z) - Approval policies for modifications to Machine Learning-Based Software
as a Medical Device: A study of bio-creep [7.305019142196582]
FDAは、マーケティングに先立ってロックアルゴリズムを承認し、市場前のレビューを別々に行うために将来のアップデートを要求する。
本稿では,オンライン仮説テスト問題として,承認ポリシーの設計について述べる。
単純なポリシーを検討中ですが、必ずしもエラー率の保証を提供していません。
論文 参考訳(メタデータ) (2019-12-28T06:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。