Fugu-MT 論文翻訳(概要): Safe DreamerV3: Safe Reinforcement Learning with World Models

論文の概要: Safe DreamerV3: Safe Reinforcement Learning with World Models

arxiv url: http://arxiv.org/abs/2307.07176v1
Date: Fri, 14 Jul 2023 06:00:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-17 14:53:36.942591
Title: Safe DreamerV3: Safe Reinforcement Learning with World Models
Title（参考訳）: safe dreamerv3: 世界モデルによる安全強化学習
Authors: Weidong Huang, Jiaming Ji, Borong Zhang, Chunhe Xia, Yaodong Yang
Abstract要約: 本稿では,世界モデルにラグランジュ的手法と計画的手法を統合する新しいアルゴリズムであるSafe DreamerV3を紹介する。本手法は,低次元および視覚のみのタスクでほぼゼロコストを実現するアルゴリズムとして,SafeRLの大幅な進歩を示している。
参考スコア（独自算出の注目度）: 4.113451838074724
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The widespread application of Reinforcement Learning (RL) in real-world situations is yet to come to fruition, largely as a result of its failure to satisfy the essential safety demands of such systems. Existing safe reinforcement learning (SafeRL) methods, employing cost functions to enhance safety, fail to achieve zero-cost in complex scenarios, including vision-only tasks, even with comprehensive data sampling and training. To address this, we introduce Safe DreamerV3, a novel algorithm that integrates both Lagrangian-based and planning-based methods within a world model. Our methodology represents a significant advancement in SafeRL as the first algorithm to achieve nearly zero-cost in both low-dimensional and vision-only tasks within the Safety-Gymnasium benchmark. Our project website can be found in: https://sites.google.com/view/safedreamerv3.
Abstract（参考訳）: 現実世界の状況における強化学習(rl)の広範な適用は、その必然的な安全性要求を満たせなかったため、まだ成果を上げていない。既存の安全強化学習(SafeRL)手法は、安全性を高めるためにコスト関数を使用し、包括的なデータサンプリングやトレーニングでさえも、視覚のみのタスクを含む複雑なシナリオでゼロコストを達成することができない。そこで我々は,世界モデルにラグランジアンと計画に基づく手法を統合する新しいアルゴリズムであるsafe dreamerv3を提案する。本手法は,Safe-Gymnasiumベンチマークにおける低次元および視覚のみのタスクにおいて,ほぼゼロコストで実現した最初のアルゴリズムとして,SafeRLの大幅な進歩を示す。プロジェクトのwebサイトは、https://sites.google.com/view/safedreamerv3.comで見ることができる。

関連論文リスト

Saffron-1: Safety Inference Scaling [69.61130284742353]
SAFFRONは、安全保証のために明示的に調整された、新しい推論スケーリングパラダイムである。我々のアプローチの中心は、要求される報酬モデルの評価を著しく削減する乗算報酬モデル(MRM)の導入である。トレーニング済みの多機能報酬モデル(Saffron-1)とそれに伴うトークンレベルの安全報酬データセット(Safety4M)を公開します。
論文参考訳（メタデータ） (2025-06-06T18:05:45Z)
ReGA: Representation-Guided Abstraction for Model-based Safeguarding of LLMs [0.9285458070502282]
大きな言語モデル(LLM)は様々なタスクで大きな成功を収めていますが、安全性とセキュリティに関する懸念が生まれています。機械学習モデルを解析し、監視するために、モデルに基づく分析は、ステートフルなディープニューラルネットワークにおいて顕著な可能性を示している。本稿では,表現誘導抽象化を用いたモデルベース分析フレームワークReGAを提案し,LLMを有害なプロンプトや世代に対して保護する。
論文参考訳（メタデータ） (2025-06-02T15:17:38Z)
Progressive Safeguards for Safe and Model-Agnostic Reinforcement Learning [5.593642806259113]
我々は、各タスクが安全を監視し、エージェントに報酬信号を提供するセーフガードと同期するメタラーニングプロセスをモデル化する。セーフガードの設計は手動だが、高レベルでモデルに依存しないため、エンドツーエンドの安全な学習アプローチがもたらされる。我々は、MinecraftにインスパイアされたGridworld、VizDoomゲーム環境、LLMファインチューニングアプリケーションでフレームワークを評価した。
論文参考訳（メタデータ） (2024-10-31T16:28:33Z)
ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文参考訳（メタデータ） (2024-10-12T10:46:02Z)
FOSP: Fine-tuning Offline Safe Policy through World Models [3.7971075341023526]
モデルに基づく強化学習(RL)は、高次元タスクを扱う訓練効率と能力を示した。しかしながら、以前の作業は、実際のデプロイメントにおけるオンライン探索のために、依然として安全上の課題を生じさせている。本稿では、オフラインで訓練されたポリシーを微調整することで、視覚に基づくロボットタスクの展開段階における安全性をさらに向上することを目的とする。
論文参考訳（メタデータ） (2024-07-06T03:22:57Z)
Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文参考訳（メタデータ） (2024-05-29T18:00:21Z)
Reinforcement Learning in a Safety-Embedded MDP with Trajectory Optimization [42.258173057389]
この研究は、このトレードオフを効果的に管理するために、RLと軌道最適化を組み合わせた新しいアプローチを導入する。我々のアプローチは、修正マルコフ決定プロセス(MDP)の動作空間に安全制約を埋め込む。この新しいアプローチは、セーフティ・ジムの課題に挑戦するパフォーマンスに優れており、推論中にはるかに高い報酬とほぼゼロに近い安全違反を達成している。
論文参考訳（メタデータ） (2023-10-10T18:01:16Z)
Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文参考訳（メタデータ） (2023-07-27T15:19:45Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。 LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文参考訳（メタデータ） (2022-01-24T17:02:22Z)
Safe Model-Based Reinforcement Learning Using Robust Control Barrier Functions [43.713259595810854]
安全に対処する一般的なアプローチとして、安全層が追加され、RLアクションを安全な一連のアクションに投影する。本稿では,モデルベースRLフレームワークにおけるロバスト制御バリア機能層としての安全性について述べる。
論文参考訳（メタデータ） (2021-10-11T17:00:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。