Fugu-MT 論文翻訳(概要): AMUSE: Adaptive Model Updating using a Simulated Environment

論文の概要: AMUSE: Adaptive Model Updating using a Simulated Environment

arxiv url: http://arxiv.org/abs/2412.10119v1
Date: Fri, 13 Dec 2024 13:04:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.969682
Title: AMUSE: Adaptive Model Updating using a Simulated Environment
Title（参考訳）: AMUSE: シミュレーション環境を用いた適応モデル更新
Authors: Louis Chislett, Catalina A. Vallejos, Timothy I. Cannings, James Liley,
Abstract要約: 予測モデルは、基礎となるデータ分布が時間とともに変化し、性能が低下するコンセプトドリフトの課題にしばしば直面する。シミュレーションデータ生成環境内で学習した強化学習を活用する新しい手法であるAMUSEを提案する。その結果、AMUSEは予想されるパフォーマンス改善に基づいたアップデートを積極的に推奨している。
参考スコア（独自算出の注目度）: 1.6124402884077915
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prediction models frequently face the challenge of concept drift, in which the underlying data distribution changes over time, weakening performance. Examples can include models which predict loan default, or those used in healthcare contexts. Typical management strategies involve regular model updates or updates triggered by concept drift detection. However, these simple policies do not necessarily balance the cost of model updating with improved classifier performance. We present AMUSE (Adaptive Model Updating using a Simulated Environment), a novel method leveraging reinforcement learning trained within a simulated data generating environment, to determine update timings for classifiers. The optimal updating policy depends on the current data generating process and ongoing drift process. Our key idea is that we can train an arbitrarily complex model updating policy by creating a training environment in which possible episodes of drift are simulated by a parametric model, which represents expectations of possible drift patterns. As a result, AMUSE proactively recommends updates based on estimated performance improvements, learning a policy that balances maintaining model performance with minimizing update costs. Empirical results confirm the effectiveness of AMUSE in simulated data.
Abstract（参考訳）: 予測モデルは、基礎となるデータ分布が時間とともに変化し、性能が低下するコンセプトドリフトの課題にしばしば直面する。例えば、ローンのデフォルトを予測するモデルや、ヘルスケアのコンテキストで使用されるモデルなどです。典型的な管理戦略は、コンセプトドリフト検出によって引き起こされる定期的なモデル更新や更新を含む。しかし、これらの単純なポリシーは、必ずしもモデル更新のコストと分類器のパフォーマンスの改善のバランスをとらない。本稿では,シミュレーションデータ生成環境内で学習した強化学習を利用したAMUSE(Adaptive Model Updating using a Simulated Environment)を提案する。最適な更新ポリシーは、現在のデータ生成プロセスと進行中のドリフトプロセスに依存する。我々のキーとなる考え方は、ドリフトの可能なエピソードをパラメトリックモデルでシミュレートするトレーニング環境を作成することで、任意の複雑なモデル更新ポリシーを訓練できるということです。その結果、AMUSEは予測されるパフォーマンス改善に基づく更新を積極的に推奨し、モデルパフォーマンスの維持と更新コストの最小化を両立するポリシを学習する。実験結果からシミュレーションデータにおけるAMUSEの有効性が確認された。

関連論文リスト

Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文参考訳（メタデータ） (2025-03-28T16:42:21Z)
On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文参考訳（メタデータ） (2024-10-21T18:31:04Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文参考訳（メタデータ） (2023-11-22T07:47:39Z)
STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。 Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文参考訳（メタデータ） (2023-10-14T16:42:02Z)
How to Fine-tune the Model: Unified Model Shift and Model Bias Policy Optimization [13.440645736306267]
本稿ではモデルに基づく強化学習のためのアルゴリズムを開発する。モデルシフトとモデルバイアスを統一し、微調整プロセスを定式化する。これは、いくつかの挑戦的なベンチマークタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-09-22T07:27:32Z)
End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control [45.84205238554709]
本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-03T10:21:53Z)
Federated Privacy-preserving Collaborative Filtering for On-Device Next App Prediction [52.16923290335873]
本稿では,モバイルデバイス使用時の次のアプリの起動を予測するための新しいSeqMFモデルを提案する。古典行列分解モデルの構造を修正し、学習手順を逐次学習に更新する。提案手法のもうひとつの要素は,ユーザからリモートサーバへの送信データの保護を保証する,新たなプライバシメカニズムである。
論文参考訳（メタデータ） (2023-02-05T10:29:57Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
How do I update my model? On the resilience of Predictive Process Monitoring models to change [15.29342790344802]
予測プロセスモニタリング技術は通常、過去のプロセス実行に基づいて予測モデルを構築し、それを新しい進行中のケースの将来を予測するために使用します。これにより、予測的プロセスモニタリングは、実際の環境で動作するプロセスの変動に対処するには厳格すぎる。予測モデルの定期的な再検討や漸進的な構築を可能にする3つの戦略の活用を評価した。
論文参考訳（メタデータ） (2021-09-08T08:50:56Z)
Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文参考訳（メタデータ） (2021-04-28T16:48:44Z)
Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-10-19T14:19:42Z)
Reinforcement Learning based dynamic weighing of Ensemble Models for Time Series Forecasting [0.8399688944263843]
データモデリングのために選択されたモデルが(線形/非線形、静的/動的)異なるモデルと独立(最小相関)モデルである場合、予測の精度が向上することが知られている。アンサンブルモデルを重み付けするために文献で提案された様々なアプローチは、静的な重みセットを使用する。この問題に対処するため、Reinforcement Learning (RL)アプローチでは、各モデルの重み付けを異なるタイミングで動的に割り当て、更新する。
論文参考訳（メタデータ） (2020-08-20T10:40:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。