論文の概要: Beyond Noisy-TVs: Noise-Robust Exploration Via Learning Progress Monitoring
- arxiv url: http://arxiv.org/abs/2509.25438v1
- Date: Mon, 29 Sep 2025 19:43:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.295616
- Title: Beyond Noisy-TVs: Noise-Robust Exploration Via Learning Progress Monitoring
- Title(参考訳): ノイズ・ロバスト探査と学習進捗モニタリング
- Authors: Zhibo Hou, Zhiyu An, Wan Du,
- Abstract要約: 本稿では,LPM(Learning Progress Monitoring)という本質的な動機付け探索手法を提案する。
探索中、LPMは予測エラーや新規性ではなくモデルの改善に報いるため、学習可能な遷移を観察するために効果的にエージェントに報いる。
その結果、LPMの内因性報酬はより早く収束し、迷路実験でより多くの状態を探究し、アタリにおける外因性報酬のより高い値を得ることが示された。
- 参考スコア(独自算出の注目度): 6.90856330255878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When there exists an unlearnable source of randomness (noisy-TV) in the environment, a naively intrinsic reward driven exploring agent gets stuck at that source of randomness and fails at exploration. Intrinsic reward based on uncertainty estimation or distribution similarity, while eventually escapes noisy-TVs as time unfolds, suffers from poor sample efficiency and high computational cost. Inspired by recent findings from neuroscience that humans monitor their improvements during exploration, we propose a novel method for intrinsically-motivated exploration, named Learning Progress Monitoring (LPM). During exploration, LPM rewards model improvements instead of prediction error or novelty, effectively rewards the agent for observing learnable transitions rather than the unlearnable transitions. We introduce a dual-network design that uses an error model to predict the expected prediction error of the dynamics model in its previous iteration, and use the difference between the model errors of the current iteration and previous iteration to guide exploration. We theoretically show that the intrinsic reward of LPM is zero-equivariant and a monotone indicator of Information Gain (IG), and that the error model is necessary to achieve monotonicity correspondence with IG. We empirically compared LPM against state-of-the-art baselines in noisy environments based on MNIST, 3D maze with 160x120 RGB inputs, and Atari. Results show that LPM's intrinsic reward converges faster, explores more states in the maze experiment, and achieves higher extrinsic reward in Atari. This conceptually simple approach marks a shift-of-paradigm of noise-robust exploration. For code to reproduce our experiments, see https://github.com/Akuna23Matata/LPM_exploration
- Abstract(参考訳): 環境中に無作為なランダム性(ノイズ−TV)の源が存在する場合、本質的な報酬駆動探索剤がランダム性の源に留まり、探索に失敗する。
不確実性推定や分布類似性に基づく本質的な報奨は、最終的に時間が経つにつれてノイズの多いテレビから逃れるが、サンプル効率の低下と高い計算コストに悩まされる。
近年の神経科学の知見に触発されて,本質的に動機づけられた探索手法であるLearning Progress Monitoring (LPM)を提案する。
探索中、LPMは予測エラーや新規性ではなくモデルの改善に報いる。
本稿では,前回のイテレーションにおける動的モデルの予測誤差を予測するためにエラーモデルを用い,現在のイテレーションのモデルエラーと前回のイテレーションの差を利用して探索をガイドするデュアルネットワーク設計を提案する。
理論的には、LPMの固有報酬はゼロ等価であり、情報ゲイン(IG)のモノトーン指標であり、IGとのモノトニック性対応を達成するためには誤差モデルが必要である。
MNIST, 3D maze with 160x120 RGB input, Atari に基づく雑音環境下でのLPMと最先端のベースラインを実証的に比較した。
その結果、LPMの内因性報酬はより早く収束し、迷路実験でより多くの状態を探究し、アタリにおける外因性報酬のより高い値を得ることが示された。
この概念的には単純なアプローチは、ノイズ・ロバスト探索のパラダイムシフトを表している。
実験を再現するコードについては、https://github.com/Akuna23Matata/LPM_explorationを参照してください。
関連論文リスト
- Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - Test-Time Scaling of Diffusion Models via Noise Trajectory Search [10.8507840358202]
我々は,デミキシングの中間段階において,極端時間と局所的なエクスプロイトをグローバルに探索する$epsilon$-greedy検索アルゴリズムを導入する。
EDMと安定拡散の実験は、クラス条件/テキスト-画像生成のための最先端スコアを明らかにする。
論文 参考訳(メタデータ) (2025-05-24T19:13:29Z) - The Dark Side of Rich Rewards: Understanding and Mitigating Noise in VLM Rewards [31.806143589311652]
VLM(Vision-Language Models)は、エンボディエージェントを訓練するための報酬信号を生成するために使われるようになっている。
我々の研究によると、VLM報酬によって誘導されるエージェントは、本質的な報酬のみを使用するエージェントに比べて、しばしばパフォーマンスが劣っている。
ノイズを緩和する新しい報奨関数であるBiMIを導入する。
論文 参考訳(メタデータ) (2024-09-24T09:45:20Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。
RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。
RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。