論文の概要: Detecting Model Drifts in Non-Stationary Environment Using Edit Operation Measures
- arxiv url: http://arxiv.org/abs/2509.11367v1
- Date: Sun, 14 Sep 2025 17:48:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.052575
- Title: Detecting Model Drifts in Non-Stationary Environment Using Edit Operation Measures
- Title(参考訳): 編集操作による非定常環境におけるモデルドリフトの検出
- Authors: Chang-Hwan Lee, Alexander Shim,
- Abstract要約: 本稿では,エージェントの挙動列の分布変化を分析して,そのような流れを検出する新しい枠組みを提案する。
定常条件および摂動条件下で発生した状態-作用軌跡間の偏差を定量化するための操作に基づく一組の編集手法を提案する。
実験により, 種々の騒音条件下であっても, ドリフトしないシナリオとドリフトを効果的に区別できることが実証された。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement learning (RL) agents typically assume stationary environment dynamics. Yet in real-world applications such as healthcare, robotics, and finance, transition probabilities or reward functions may evolve, leading to model drift. This paper proposes a novel framework to detect such drifts by analyzing the distributional changes in sequences of agent behavior. Specifically, we introduce a suite of edit operation-based measures to quantify deviations between state-action trajectories generated under stationary and perturbed conditions. Our experiments demonstrate that these measures can effectively distinguish drifted from non-drifted scenarios, even under varying levels of noise, providing a practical tool for drift detection in non-stationary RL environments.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) エージェントは通常、定常環境力学を仮定する。
しかし、医療、ロボティクス、ファイナンスといった現実世界のアプリケーションでは、移行確率や報酬関数が進化し、モデルドリフトにつながる可能性がある。
本稿では,エージェントの挙動列の分布変化を分析して,そのような流れを検出する新しい枠組みを提案する。
具体的には,定常条件および摂動条件下で発生した状態-作用軌跡間の偏差を定量化するための操作に基づく一組の編集手法を提案する。
実験により, 非定常RL環境におけるドリフト検出の実践的ツールとして, 騒音のレベルが異なる場合であっても, ドリフトとドリフトを効果的に区別できることが実証された。
関連論文リスト
- ALFred: An Active Learning Framework for Real-world Semi-supervised Anomaly Detection with Adaptive Thresholds [2.1374208474242815]
ビデオ異常検出(VAD)は、ビデオ中の異常な活動を見つける上で重要な役割を果たす。
VADは、人間の行動の動的な性質、環境の変化、ドメインシフトにより、現実世界での使用が困難である。
VADに適したアクティブラーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2025-08-12T16:18:54Z) - datadriftR: An R Package for Concept Drift Detection in Predictive Models [0.0]
本稿では,コンセプトドリフトを検出するためのRパッケージであるドリフト器を紹介する。
ドリフト検出とドリフトの背後にある原因の理解を深めることのできるプロファイルドリフト検出(PDD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-15T20:59:49Z) - CtRL-Sim: Reactive and Controllable Driving Agents with Offline Reinforcement Learning [38.63187494867502]
CtRL-Simは、リターン条件付きオフライン強化学習(RL)を利用して、リアクティブで制御可能なトラフィックエージェントを効率的に生成する手法である。
CtRL-Simは,エージェントの挙動を詳細に制御しながら,現実的な安全クリティカルシナリオを生成可能であることを示す。
論文 参考訳(メタデータ) (2024-03-29T02:10:19Z) - Controllable Diverse Sampling for Diffusion Based Motion Behavior
Forecasting [11.106812447960186]
制御可能拡散軌道(CDT)と呼ばれる新しい軌道生成器を導入する。
CDTは、情報と社会的相互作用をトランスフォーマーに基づく条件記述拡散モデルに統合し、将来の軌跡の予測を導く。
マルチモーダル性を確保するため,直進,右折,左折などの軌道モードを指示する行動トークンを組み込んだ。
論文 参考訳(メタデータ) (2024-02-06T13:16:54Z) - DARTH: Holistic Test-time Adaptation for Multiple Object Tracking [87.72019733473562]
複数物体追跡(MOT)は、自律運転における知覚システムの基本的構成要素である。
運転システムの安全性の追求にもかかわらず、テスト時間条件における領域シフトに対するMOT適応問題に対する解決策は提案されていない。
我々はMOTの総合的なテスト時間適応フレームワークであるDARTHを紹介する。
論文 参考訳(メタデータ) (2023-10-03T10:10:42Z) - A Diffusion-Model of Joint Interactive Navigation [14.689298253430568]
本稿では,交通シナリオを生成する拡散に基づくDJINNを提案する。
我々のアプローチは、過去、現在、未来からのフレキシブルな状態観察のセットに基づいて、全てのエージェントの軌跡を共同で拡散させる。
本稿では,DJINNが様々な条件分布からの直接的テスト時間サンプリングを柔軟に行う方法を示す。
論文 参考訳(メタデータ) (2023-09-21T22:10:20Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。