論文の概要: Meta-Cognitive Reinforcement Learning with Self-Doubt and Recovery
- arxiv url: http://arxiv.org/abs/2601.20193v1
- Date: Wed, 28 Jan 2026 02:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.737871
- Title: Meta-Cognitive Reinforcement Learning with Self-Doubt and Recovery
- Title(参考訳): 自己修復型メタ認知強化学習
- Authors: Zhipeng Zhang, Wenting Ma, Kai Li, Meng Guo, Lei Yang, Wei Yu, Hongji Cui, Yichen Zhang, Mo Zhang, Jinzhe Lin, Zhenjie Yao,
- Abstract要約: 本稿では,エージェントが学習行動を評価し,制御し,回復することを可能にするメタ認知強化学習フレームワークを提案する。
提案手法では,値予測エラー安定性(VPES)によって駆動されるメタトラスト変数を導入し,フェールセーフな制御と段階的信頼回復を通じて学習ダイナミクスを変調する。
- 参考スコア(独自算出の注目度): 25.522943543082363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust reinforcement learning methods typically focus on suppressing unreliable experiences or corrupted rewards, but they lack the ability to reason about the reliability of their own learning process. As a result, such methods often either overreact to noise by becoming overly conservative or fail catastrophically when uncertainty accumulates. In this work, we propose a meta-cognitive reinforcement learning framework that enables an agent to assess, regulate, and recover its learning behavior based on internally estimated reliability signals. The proposed method introduces a meta-trust variable driven by Value Prediction Error Stability (VPES), which modulates learning dynamics via fail-safe regulation and gradual trust recovery. Experiments on continuous-control benchmarks with reward corruption demonstrate that recovery-enabled meta-cognitive control achieves higher average returns and significantly reduces late-stage training failures compared to strong robustness baselines.
- Abstract(参考訳): 頑健な強化学習法は、通常、信頼できない経験や腐敗した報酬を抑えることに重点を置いているが、彼ら自身の学習プロセスの信頼性について推論する能力は欠如している。
結果として、このような手法は、過度に保守的になるか、不確実性が蓄積されたときに破滅的に失敗するかのいずれかで、ノイズに過度に反応する。
本研究では、エージェントが内部で推定された信頼性信号に基づいて学習行動を評価し、制御し、回復することを可能にするメタ認知強化学習フレームワークを提案する。
提案手法では,値予測エラー安定性(VPES)によって駆動されるメタトラスト変数を導入し,フェールセーフな制御と段階的信頼回復を通じて学習ダイナミクスを変調する。
報酬汚職を伴う連続制御ベンチマークの実験では、リカバリ可能なメタ認知制御により、より平均的なリターンが得られ、強靭性ベースラインに比べて後期のトレーニング失敗が大幅に減少することが示された。
関連論文リスト
- Learning to Trust Experience: A Monitor-Trust-Regulator Framework for Learning under Unobservable Feedback Reliability [24.97566911521709]
保存不能信頼性(EIUR)下におけるてんかんの認識可能性について検討した。
標準的な堅牢な学習は安定して収束するが、高信頼で体系的に間違った信念を形成する。
本稿では,メタ認知制御の実践的対応として,学習者の内的力学における内在的証拠から経験的信頼性を推定する第2の内観的制御ループを提案する。
論文 参考訳(メタデータ) (2026-01-14T07:52:14Z) - Parent-Guided Adaptive Reliability (PGAR): A Behavioural Meta-Learning Framework for Stable and Trustworthy AI [0.0]
Parent-Guided Adaptive Reliability (PGAR)は軽量な振る舞いメタ学習フレームワークである。
障害時の安定性、キャリブレーション、リカバリを改善するため、標準的な学習者の上に、監督的な"親"層を追加します。
PGARは既存の最適化と学習パイプラインのためのプラグイン信頼性レイヤとして機能し、安全関連設定の解釈可能なトレースをサポートする。
論文 参考訳(メタデータ) (2026-01-07T06:02:34Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - CARIL: Confidence-Aware Regression in Imitation Learning for Autonomous Driving [0.0]
エンドツーエンドの視覚に基づく模倣学習は、自動運転の有望な結果を証明している。
従来のアプローチでは、正確な制御を提供するレグレッションベースモデルと、信頼性スコアを提供するが、離散化による精度の低下に悩まされる分類ベースモデルのいずれかに依存している。
我々は、回帰と分類の両ヘッドを統合したデュアルヘッドニューラルネットワークアーキテクチャを導入し、模倣学習における決定信頼性を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:19:02Z) - Temporal-Difference Variational Continual Learning [77.92320830700797]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning [11.084321518414226]
我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。
我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
論文 参考訳(メタデータ) (2023-07-21T20:54:52Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。