論文の概要: Lyapunov-Guided Self-Alignment: Test-Time Adaptation for Offline Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.26516v1
- Date: Wed, 29 Apr 2026 10:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.357992
- Title: Lyapunov-Guided Self-Alignment: Test-Time Adaptation for Offline Safe Reinforcement Learning
- Title(参考訳): Lyapunov-Guided Self-Alignment: オフライン型安全強化学習のためのテスト時間適応
- Authors: Seungyub Han, Hyungjin Kim, Jungwoo Lee,
- Abstract要約: SAS(Self-Alignment for Safety)は、オフライン安全なRLにおけるテスト時間適応を可能にするトランスフォーマーベースのフレームワークである。
事実上、SASはリアプノフ誘導の想像力を制御不変のプロンプトに変える。
Safety GymnasiumとMuJoCoベンチマークの他、SASはリターンを維持したり改善したりしながら、コストと失敗を一貫して削減する。
- 参考スコア(独自算出の注目度): 7.555681642774918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) agents often fail when deployed, as the gap between training datasets and real environments leads to unsafe behavior. To address this, we present SAS (Self-Alignment for Safety), a transformer-based framework that enables test-time adaptation in offline safe RL without retraining. In SAS, the main mechanism is self-alignment: at test time, the pretrained agent generates several imagined trajectories and selects those satisfying the Lyapunov condition. These feasible segments are then recycled as in-context prompts, allowing the agent to realign its behavior toward safety while avoiding parameter updates. In effect, SAS turns Lyapunov-guided imagination into control-invariant prompts, and its transformer architecture admits a hierarchical RL interpretation where prompting functions as Bayesian inference over latent skills. Across Safety Gymnasium and MuJoCo benchmarks, SAS consistently reduces cost and failure while maintaining or improving return.
- Abstract(参考訳): オフライン強化学習(RL)エージェントは、トレーニングデータセットと実際の環境の間にギャップがあるため、デプロイ時に失敗することが多い。
そこで本稿では,オフライン安全なRLにおけるテスト時間適応を実現するトランスフォーマーベースのフレームワークであるSAS(Self-Alignment for Safety)を提案する。
テスト時において、事前訓練されたエージェントはいくつかの想像された軌道を生成し、リャプノフ条件を満たすものを選択する。
これらの実現可能なセグメントは、インコンテキストプロンプトとしてリサイクルされ、エージェントはパラメータ更新を避けながら、その振る舞いを安全に向けて認識することができる。
事実上、SASはリアプノフ誘導のイマジネーションを制御不変のプロンプトに変換し、トランスフォーマーアーキテクチャは階層的なRL解釈を許容する。
Safety GymnasiumとMuJoCoベンチマークの他、SASはリターンを維持したり改善したりしながら、コストと失敗を一貫して削減する。
関連論文リスト
- Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Large Reasoning Models Learn Better Alignment from Flawed Thinking [56.08883934423522]
大規模推論モデル(LRM)は、最終的な答えを生成する前に構造化チェーン・オブ・シント(CoT)を生成することで「考える」。
本稿では,Regressed Learning (RL) 手法であるRECAPを提案する。
論文 参考訳(メタデータ) (2025-10-01T14:15:43Z) - SALSA-RL: Stability Analysis in the Latent Space of Actions for Reinforcement Learning [2.7075926292355286]
本研究では,SALSA-RL(Stability Analysis in the Latent Space of Actions)を提案する。
SALSA-RLは、様々なベンチマーク環境における性能を損なうことなく、事前訓練されたRLエージェントからの動作の局所的安定性を評価するために、非侵襲的な方法で展開可能であることを実証する。
論文 参考訳(メタデータ) (2025-02-21T15:09:39Z) - Don't Trade Off Safety: Diffusion Regularization for Constrained Offline RL [21.316556011382932]
制約付き強化学習(RL)は、安全制約下での高性能な政策を求める。
拡散規則化制約付きオフライン強化学習(DRCORL)を提案する。
DRCORLは、まず拡散モデルを使用して、オフラインデータから行動ポリシーをキャプチャし、その後、効率的な推論を可能にするために単純化されたポリシーを抽出する。
論文 参考訳(メタデータ) (2025-02-18T00:00:03Z) - xSRL: Safety-Aware Explainable Reinforcement Learning -- Safety as a Product of Explainability [8.016667413960995]
我々は、RLエージェントの振る舞いを包括的に理解するために、ローカルとグローバルの両方の説明を統合するフレームワークであるxSRLを提案する。
xSRLはまた、敵攻撃を通じてポリシーの脆弱性を識別し、再トレーニングせずにエージェントのデバッグとパッチを行うツールを提供する。
我々の実験とユーザスタディは、RLシステムの安全性を高めるためのxSRLの有効性を実証し、現実のデプロイメントにおいてより信頼性と信頼性を高めた。
論文 参考訳(メタデータ) (2024-12-26T18:19:04Z) - Self-Confirming Transformer for Belief-Conditioned Adaptation in Offline Multi-Agent Reinforcement Learning [13.33996350474556]
オフライン強化学習(RL)は、オフラインデータセットとオンライン環境の間の分散シフトに悩まされる。
本稿では,自己拡張プレコンディショニングの考え方に基づいて,トランスフォーマーエージェントにオンライン適応性を持たせるための新しい自己回帰トレーニングを提案する。
論文 参考訳(メタデータ) (2023-10-06T20:43:08Z) - SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning [64.33956692265419]
オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-28T13:57:01Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [54.34189781923818]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。