論文の概要: Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals
- arxiv url: http://arxiv.org/abs/2510.14503v1
- Date: Thu, 16 Oct 2025 09:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.803368
- Title: Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals
- Title(参考訳): Undoへの学習: 可逆性信号を用いたロールバック強化型強化学習
- Authors: Andrejs Sorstkins, Omer Tariq, Muhammad Bilal,
- Abstract要約: 本稿では,価値に基づく強化学習エージェントの堅牢性と効率を向上させるための可逆学習フレームワークを提案する。
このフレームワークには2つの補完的なコア機構がある: s の Phi と割り込みと呼ばれる経験的に導出された遷移可逆性測度、選択状態のロールバック演算である。
- 参考スコア(独自算出の注目度): 1.9537983097153042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a reversible learning framework to improve the robustness and efficiency of value based Reinforcement Learning agents, addressing vulnerability to value overestimation and instability in partially irreversible environments. The framework has two complementary core mechanisms: an empirically derived transition reversibility measure called Phi of s and a, and a selective state rollback operation. We introduce an online per state action estimator called Phi that quantifies the likelihood of returning to a prior state within a fixed horizon K. This measure is used to adjust the penalty term during temporal difference updates dynamically, integrating reversibility awareness directly into the value function. The system also includes a selective rollback operator. When an action yields an expected return markedly lower than its instantaneous estimated value and violates a predefined threshold, the agent is penalized and returns to the preceding state rather than progressing. This interrupts sub optimal high risk trajectories and avoids catastrophic steps. By combining reversibility aware evaluation with targeted rollback, the method improves safety, performance, and stability. In the CliffWalking v0 domain, the framework reduced catastrophic falls by over 99.8 percent and yielded a 55 percent increase in mean episode return. In the Taxi v3 domain, it suppressed illegal actions by greater than or equal to 99.9 percent and achieved a 65.7 percent improvement in cumulative reward, while also sharply reducing reward variance in both environments. Ablation studies confirm that the rollback mechanism is the critical component underlying these safety and performance gains, marking a robust step toward safe and reliable sequential decision making.
- Abstract(参考訳): 本稿では,価値に基づく強化学習エージェントの堅牢性と効率を向上させるための可逆学習フレームワークを提案する。
このフレームワークには、2つの相補的なコア機構がある: s と a の Phi と呼ばれる経験的に導出された遷移可逆性測度と、選択状態のロールバック演算である。
本手法は,時間差更新時のペナルティ項を動的に調整し,可逆性認識を直接値関数に統合する。
システムは選択的ロールバック演算子も含む。
アクションが予測リターンをその瞬時に推定値よりも著しく低くし、予め定義されたしきい値に違反すると、エージェントは罰せられ、進行ではなく前の状態に戻る。
これは準最適高リスク軌道を中断し、破滅的なステップを避ける。
可逆性評価と目標ロールバックを組み合わせることにより,安全性,性能,安定性を向上させる。
CliffWalking v0ドメインでは、壊滅的な転倒を99.8%減らし、平均エピソードリターンが55%増加した。
タクシーv3ドメインでは、違法行為を99.9%以上抑制し、累積報酬を65.7%改善した。
アブレーション研究は、ロールバック機構がこれらの安全性とパフォーマンス向上の根底にある重要な要素であることを確認し、安全で信頼性の高いシーケンシャルな意思決定に向けた堅牢なステップを示している。
関連論文リスト
- SafeEvalAgent: Toward Agentic and Self-Evolving Safety Evaluation of LLMs [37.82193156438782]
本稿では, エージェント安全評価の新しいパラダイムとして, 継続的かつ自己進化的なプロセスとしてのリフレーミング評価を提案する。
本稿では、構造化されていないポリシー文書を自律的に取り込み、包括的な安全ベンチマークを生成し、永続的に進化させる、新しいマルチエージェントフレームワークSafeEvalAgentを提案する。
本実験はSafeEvalAgentの有効性を実証し,評価が強まるにつれてモデルの安全性が一貫した低下を示す。
論文 参考訳(メタデータ) (2025-09-30T11:20:41Z) - Think Twice, Generate Once: Safeguarding by Progressive Self-Reflection [18.467741067831877]
本稿では,大規模言語モデルを自己監視に活用し,その出力を動的に補正する新しい推論時間手法であるプログレッシブ・セルフリフレクションを紹介する。
Llama-3.1-8B-Instructに提案手法を適用した結果,攻撃成功率は77.5%から5.9%に低下した。
提案手法はテスト時間スケーリングの手法として機能し,追加の自己回帰ラウンドによって推論オーバーヘッドのコストで安全性が向上する。
論文 参考訳(メタデータ) (2025-09-29T12:54:28Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Towards Safe Reinforcement Learning via Constraining Conditional
Value-at-Risk [30.229387511344456]
本稿では,CVaR を所定の閾値以下に保ち,リスクに敏感な制約付き最適化問題を定式化する CVaR-Proximal-Policy-Optimization (CPPO) の新たな強化学習アルゴリズムを提案する。
実験の結果,CPPOは高い累積報酬を達成し,観察および遷移障害に対してより堅牢であることがわかった。
論文 参考訳(メタデータ) (2022-06-09T11:57:54Z) - Smooth Sequential Optimisation with Delayed Feedback [0.0]
累積入力からスムーズな報酬推定を推定する収縮への新しい適応を提案する。
数値シミュレーションにより, この適応は収縮の利点を保ち, 報酬推定の安定性を50%以上向上させることを示した。
論文 参考訳(メタデータ) (2021-06-21T17:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。