論文の概要: Anomalous Decision Discovery using Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.04464v1
- Date: Sun, 06 Jul 2025 17:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.197017
- Title: Anomalous Decision Discovery using Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習を用いた異常決定探索
- Authors: Ashish Bastola, Mert D. Pesé, Long Cheng, Jonathon Smereka, Abolfazl Razi,
- Abstract要約: 異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
- 参考スコア(独自算出の注目度): 3.3675535571071746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anomaly detection plays a critical role in Autonomous Vehicles (AVs) by identifying unusual behaviors through perception systems that could compromise safety and lead to hazardous situations. Current approaches, which often rely on predefined thresholds or supervised learning paradigms, exhibit reduced efficacy when confronted with unseen scenarios, sensor noise, and occlusions, leading to potential safety-critical failures. Moreover, supervised methods require large annotated datasets, limiting their real-world feasibility. To address these gaps, we propose an anomaly detection framework based on Inverse Reinforcement Learning (IRL) to infer latent driving intentions from sequential perception data, thus enabling robust identification. Specifically, we present Trajectory-Reward Guided Adaptive Pre-training (TRAP), a novel IRL framework for anomaly detection, to address two critical limitations of existing methods: noise robustness and generalization to unseen scenarios. Our core innovation is implicitly learning temporal credit assignments via reward and worst-case supervision. We leverage pre-training with variable-horizon sampling to maximize time-to-consequence, resulting in early detection of behavior deviation. Experiments on 14,000+ simulated trajectories demonstrate state-of-the-art performance, achieving 0.90 AUC and 82.2\% F1-score - outperforming similarly trained supervised and unsupervised baselines by 39\% on Recall and 12\% on F1-score, respectively. Similar performance is achieved while exhibiting robustness to various noise types and generalization to unseen anomaly types. Our code will be available at: https://github.com/abastola0/TRAP.git
- Abstract(参考訳): 異常検出は、安全を損なう可能性があり、危険な状況につながる可能性のある知覚システムを通じて、異常な行動を識別することで、自律走行車(AV)において重要な役割を担っている。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオ、センサーノイズ、閉塞に直面した場合、効果が低下し、潜在的に安全クリティカルな障害を引き起こす。
さらに、教師付き手法は大量の注釈付きデータセットを必要とし、実際の実現可能性を制限する。
これらのギャップに対処するため,逆強化学習(IRL)に基づく異常検出フレームワークを提案し,逐次的知覚データから潜在運転意図を推定し,ロバストな識別を可能にする。
具体的には、異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
私たちの中核的なイノベーションは、報酬と最悪の場合の監督を通じて、時間的クレジットの割り当てを暗黙的に学ぶことです。
我々は,変動水平サンプリングによる事前学習を活用して,時間と一致を最大化し,行動偏差を早期に検出する。
14,000以上のシミュレートされた軌道の実験では、0.90 AUCと82.2 % F1-scoreを達成し、それぞれリコールで39 %、F1-scoreで12 %向上した。
同様の性能は、様々なノイズタイプに頑健さを示し、目に見えない異常タイプに一般化しながら達成される。
私たちのコードは、https://github.com/abastola0/TRAP.gitで利用可能になります。
関連論文リスト
- Typicalness-Aware Learning for Failure Detection [26.23185979968123]
ディープニューラルネットワーク(DNN)は、しばしば自信過剰な問題に悩まされる。
そこで本研究では,本問題に対処し,故障検出性能を向上させるために,S typicalness-Aware Learning (TAL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T11:09:47Z) - CARLA: Self-supervised Contrastive Representation Learning for Time Series Anomaly Detection [53.83593870825628]
時系列異常検出(TSAD)の主な課題は、多くの実生活シナリオにおいてラベル付きデータの欠如である。
既存の異常検出手法の多くは、教師なしの方法で非ラベル時系列の正常な振る舞いを学習することに焦点を当てている。
本稿では,時系列異常検出のためのエンドツーエンドの自己教師型コントラアスティブ表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T04:45:56Z) - Realistic Safety-critical Scenarios Search for Autonomous Driving System
via Behavior Tree [8.286351881735191]
本研究では,行動木に基づくテストフレームワークであるMatrix-Fuzzerを提案し,現実的な安全クリティカルなテストシナリオを自動的に生成する。
提案手法では, 安全クリティカルシナリオのタイプが最も多いが, ベースラインアルゴリズムと比較して, 全体の30%程度しか生成できない。
論文 参考訳(メタデータ) (2023-05-11T06:53:03Z) - Robust Semi-Supervised Anomaly Detection via Adversarially Learned
Continuous Noise Corruption [11.135527192198092]
異常検出は、予め確立された正常性から著しく逸脱した新しいサンプルを認識するタスクである。
ディープオートエンコーダ(AE)は、異常検出タスクとして広く使用されているが、ヌルID関数への過度な適合に悩まされている。
本稿では,適応学習連続雑音(ALCN)を効率よく生成する手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T22:59:20Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z) - Sequential Anomaly Detection using Inverse Reinforcement Learning [23.554584457413483]
逆強化学習(IRL)を用いた逐次異常検出のためのエンドツーエンドフレームワークを提案する。
我々はニューラルネットワークを用いて報酬関数を表現し、学習された報酬関数を用いて、ターゲットエージェントからの新しい観察が正常なパターンに従うかどうかを評価する。
公開されている実世界のデータに関する実証研究は,本手法が異常の同定に有効であることを示している。
論文 参考訳(メタデータ) (2020-04-22T05:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。