Fugu-MT 論文翻訳(概要): Learning Rewards, Not Labels: Adversarial Inverse Reinforcement Learning for Machinery Fault Detection

論文の概要: Learning Rewards, Not Labels: Adversarial Inverse Reinforcement Learning for Machinery Fault Detection

arxiv url: http://arxiv.org/abs/2602.22297v1
Date: Wed, 25 Feb 2026 15:34:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.364593
Title: Learning Rewards, Not Labels: Adversarial Inverse Reinforcement Learning for Machinery Fault Detection
Title（参考訳）: ラベルではなくリワードを学習する:機械故障検出のための逆逆強化学習
Authors: Dhiraj Neupane, Richard Dazeley, Mohamed Reda Bouadjenek, Sunil Aryal,
Abstract要約: 強化学習は機械故障検出に重要な可能性を秘めている。既存のRLベースのMFDアプローチの多くは、RLのシーケンシャルな決定力を完全に活用していない。我々はMFDをオフライン逆強化学習問題として定式化する。
参考スコア（独自算出の注目度）: 6.3503481684078835
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Reinforcement learning (RL) offers significant promise for machinery fault detection (MFD). However, most existing RL-based MFD approaches do not fully exploit RL's sequential decision-making strengths, often treating MFD as a simple guessing game (Contextual Bandits). To bridge this gap, we formulate MFD as an offline inverse reinforcement learning problem, where the agent learns the reward dynamics directly from healthy operational sequences, thereby bypassing the need for manual reward engineering and fault labels. Our framework employs Adversarial Inverse Reinforcement Learning to train a discriminator that distinguishes between normal (expert) and policy-generated transitions. The discriminator's learned reward serves as an anomaly score, indicating deviations from normal operating behaviour. When evaluated on three run-to-failure benchmark datasets (HUMS2023, IMS, and XJTU-SY), the model consistently assigns low anomaly scores to normal samples and high scores to faulty ones, enabling early and robust fault detection. By aligning RL's sequential reasoning with MFD's temporal structure, this work opens a path toward RL-based diagnostics in data-driven industrial settings.
Abstract（参考訳）: 強化学習(RL)は機械故障検出(MFD)に大きく貢献する。しかし、既存のRLベースのMFDアプローチの多くは、RLのシーケンシャルな決定力を完全に活用していないため、MFDを単純な推測ゲーム(Contextual Bandits)として扱うことが多い。このギャップを埋めるため、我々はMFDをオフライン逆強化学習問題として定式化し、エージェントは正常な操作シーケンスから直接報酬ダイナミクスを学習し、手動報酬工学や障害ラベルの必要性を回避した。我々のフレームワークは、通常の(専門家)と政策生成トランジションを区別する差別者を訓練するために、逆逆強化学習(Adversarial Inverse Reinforcement Learning)を採用している。判別器の学習報酬は異常スコアとして機能し、正常な手術行動からの逸脱を示す。 HUMS2023、IMS、XJTU-SYの3つのベンチマークデータセットで評価すると、モデルは常に低い異常スコアを通常のサンプルに割り当て、高いスコアを欠陥データセットに割り当て、早期かつ堅牢な故障検出を可能にする。この研究は、RLのシーケンシャル推論とMFDの時間構造を整合させることで、データ駆動産業環境におけるRLに基づく診断への道を開く。

関連論文リスト

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文参考訳（メタデータ） (2026-02-27T13:48:50Z)
Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文参考訳（メタデータ） (2026-01-26T21:38:20Z)
LLM-Enhanced Reinforcement Learning for Time Series Anomaly Detection [1.1852406625172216]
時系列異常検出は、しばしばスパースラベル、複雑な時間パターン、高価な専門家アノテーションに悩まされる。本稿では,LL(Reinforcement Learning),VAE(Variational Autoencoder)の強化された動的報酬スケーリング,ラベル伝搬によるアクティブラーニングを併用した,LLM(Large Language Model)に基づく報酬形成機能の統合フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-05T19:33:30Z)
RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。コードとデータセットを含む、対応するリソースをリリースしました。
論文参考訳（メタデータ） (2025-09-18T07:35:58Z)
Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文参考訳（メタデータ） (2025-07-06T17:01:02Z)
Causal Disentanglement Hidden Markov Model for Fault Diagnosis [55.90917958154425]
本研究では, 軸受破壊機構の因果性を学ぶために, 因果解離隠れマルコフモデル (CDHM) を提案する。具体的には、時系列データをフル活用し、振動信号を断層関連要因と断層関連要因に段階的に分解する。アプリケーションの範囲を広げるために、学習された非絡み合った表現を他の作業環境に転送するために、教師なしのドメイン適応を採用する。
論文参考訳（メタデータ） (2023-08-06T05:58:45Z)
Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。本研究では, MRL の頑健な目標を制御レベルで定義する。ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文参考訳（メタデータ） (2023-01-26T14:54:39Z)
A Distance-based Anomaly Detection Framework for Deep Reinforcement Learning [33.623558899286635]
深層強化学習(RL)システムでは、異常な状態が予測不能な行動や安全でない行動を引き起こす可能性があり、重大なリスクを引き起こす。深部RLアルゴリズムのための新しいMahalanobis distance-based anomaly detection framework, textitMDXを提案する。 MDXは、オフラインとオンラインの両方の設定において、ランダム、逆境、およびアウト・オブ・ディストリビューション(OOD)状態のアウトレイラに同時に対処する。
論文参考訳（メタデータ） (2021-09-21T00:09:03Z)
Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文参考訳（メタデータ） (2020-10-22T12:45:55Z)
Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。我々は,再建基準の代替として,異常スコアの代替尺度を提案した。提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文参考訳（メタデータ） (2020-03-24T08:26:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。