論文の概要: Regret-Aware Policy Optimization: Environment-Level Memory for Replay Suppression under Delayed Harm
- arxiv url: http://arxiv.org/abs/2604.07428v1
- Date: Wed, 08 Apr 2026 17:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.476967
- Title: Regret-Aware Policy Optimization: Environment-Level Memory for Replay Suppression under Delayed Harm
- Title(参考訳): レグレト・アウェアポリシー最適化:遅延ハーム下でのリプレイ抑制のための環境レベルメモリ
- Authors: Prakul Sunil Hiremath,
- Abstract要約: 定常観測可能遷移カーネルの下では、リプレイ時の動作分布の変化を誘発することなく、リプレイを構造的に抑制することはできないことを示す。
プラットフォームを介するシステムによってモチベーションされたRAPO(Regret-Aware Policy Optimization)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety in reinforcement learning (RL) is typically enforced through objective shaping while keeping environment dynamics stationary with respect to observable state-action pairs. Under delayed harm, this can lead to replay: after a washout period, reintroducing the same stimulus under matched observable conditions reproduces a similar harmful cascade. We introduce the Replay Suppression Diagnostic (RSD), a controlled exposure-decay-replay protocol that isolates this failure mode under frozen-policy evaluation. We show that, under stationary observable transition kernels, replay cannot be structurally suppressed without inducing a persistent shift in replay-time action distributions. Motivated by platform-mediated systems, we propose Regret-Aware Policy Optimization (RAPO), which augments the environment with persistent harm-trace and scar fields and applies a bounded, mass-preserving transition reweighting to reduce reachability of historically harmful regions. On graph diffusion tasks (50-1000 nodes), RAPO suppresses replay, reducing re-amplification gain (RAG) from 0.98 to 0.33 on 250-node graphs while retaining 82\% of task return. Disabling transition deformation only during replay restores re-amplification (RAG 0.91), isolating environment-level deformation as the causal mechanism.
- Abstract(参考訳): 強化学習(RL)の安全性は、通常、観測可能な状態-作用対に関して環境動態を定常的に保ちながら、客観的な形作りによって強制される。
遅延した害の下では、これはリプレイに繋がる: 洗い出し期間の後、一致した観察可能な条件下で同じ刺激を再導入すると、同様の有害なカスケードを再現する。
本稿では,この障害モードをフリーズ・ポリシー評価の下で分離する,制御された露光遅延再生プロトコルであるReplay Suppression Diagnostic (RSD)を紹介する。
定常観測可能な遷移カーネルでは、リプレイ時の動作分布の持続的な変化を誘発することなく、リプレイを構造的に抑制することはできないことを示す。
プラットフォームを介するシステムによってモチベーションされたRAPO(Regret-Aware Policy Optimization)を提案する。
グラフ拡散タスク(50-1000ノード)では、RAPOはリプレイを抑制し、250ノードグラフ上の再増幅ゲイン(RAG)を0.98から0.33に削減し、タスクリターンの82\%を保持する。
リプレイ再生時にのみ遷移変形を無効にし(RAG 0.91)、環境レベルの変形を因果機構として分離する。
関連論文リスト
- Relax Forcing: Relaxed KV-Memory for Consistent Long Video Generation [73.84423888025171]
オートレグレッシブ(AR)ビデオ拡散は,近年,長大なビデオ生成において有望なパラダイムとして浮上している。
時間的劣化が進行しているため, 生成から微小スケールの地平線への延長は依然として困難であることを示す。
本稿では,AR拡散のための時間記憶機構であるRelax Forcingを紹介する。
論文 参考訳(メタデータ) (2026-03-22T18:59:24Z) - FILT3R: Latent State Adaptive Kalman Filter for Streaming 3D Reconstruction [51.56484100374058]
ストリーミング3D再構築は、受信フレームからオンラインで更新される永続的な潜伏状態を維持する。
FILT3Rは、トークン空間における状態推定として、リカレントな状態更新をキャストする。
コードはhttps://github.com/jinotter3/FILT3Rでリリースされる。
論文 参考訳(メタデータ) (2026-03-19T04:56:36Z) - Cerebellar-Inspired Residual Control for Fault Recovery: From Inference-Time Adaptation to Structural Consolidation [2.0421986354783437]
我々は、オンラインの修正行動によって凍結強化学習ポリシーを強化する、推論時、小脳にインスパイアされた残留制御フレームワークを導入する。
このフレームワークは、固定された特徴拡張による高次元パターン分離を含む中核小脳の原理をインスタンス化する。
MuJoCoベンチマークの実験では、TextttHalfCheetah-v5で最大$+66%、適度な欠陥下でのtextttHumanoid-v5で$+53%の改善が示されている。
論文 参考訳(メタデータ) (2026-02-06T22:16:00Z) - A Backpropagation-Free Feedback-Hebbian Network for Continual Learning Dynamics [0.0]
局所的な可塑性で訓練されたコンパクトなフィードバック経路は、再生と連続学習-関連するダイナミクスをサポートすることができることを示す。
その結果,局所的可塑性で訓練されたコンパクトなフィードバック経路は,再生と連続学習-関連するダイナミクスをサポートすることが示唆された。
論文 参考訳(メタデータ) (2026-01-11T03:25:38Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Convergence and Generalization of Anti-Regularization for Parametric Models [0.0]
反正則化は損失関数に逆符号を持つ報酬項を導入する。
スペクトル安全性条件と信頼領域制約を定式化する。
我々は、プロジェクション演算子と勾配クリッピングを組み合わせた軽量な安全ガードを設計し、安定した介入を保証する。
論文 参考訳(メタデータ) (2025-08-24T15:34:17Z) - Mjolnir: Breaking the Shield of Perturbation-Protected Gradients via Adaptive Diffusion [13.764770382623812]
フェデレートラーニングにおける勾配摂動保護のシールドを破ろうとする試みについて紹介する。
摂動抵抗性勾配漏洩攻撃であるMjolnirを導入する。
Mjolnirは、オリジナルのモデル構造や外部データへのアクセスを必要とせずに、勾配から摂動を取り除くことができる。
論文 参考訳(メタデータ) (2024-07-07T07:06:49Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。