論文の概要: Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints
- arxiv url: http://arxiv.org/abs/2407.00741v3
- Date: Mon, 15 Jul 2024 18:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 20:29:52.441998
- Title: Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints
- Title(参考訳): 安全制約を考慮したオフラインマルチエージェント強化学習のための拡散モデル
- Authors: Jianuo Huang,
- Abstract要約: マルチエージェント強化学習パラダイムに拡散モデルを統合する革新的なフレームワークを導入する。
このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent advancements in Multi-agent Reinforcement Learning (MARL), its application has extended to various safety-critical scenarios. However, most methods focus on online learning, which presents substantial risks when deployed in real-world settings. Addressing this challenge, we introduce an innovative framework integrating diffusion models within the MARL paradigm. This approach notably enhances the safety of actions taken by multiple agents through risk mitigation while modeling coordinated action. Our framework is grounded in the Centralized Training with Decentralized Execution (CTDE) architecture, augmented by a Diffusion Model for prediction trajectory generation. Additionally, we incorporate a specialized algorithm to further ensure operational safety. We evaluate our model against baselines on the DSRL benchmark. Experiment results demonstrate that our model not only adheres to stringent safety constraints but also achieves superior performance compared to existing methodologies. This underscores the potential of our approach in advancing the safety and efficacy of MARL in real-world applications.
- Abstract(参考訳): 近年のMARL(Multi-agent Reinforcement Learning)の進歩により、その応用は様々な安全クリティカルなシナリオにまで拡張されている。
しかし,ほとんどの手法はオンライン学習に重点を置いており,実際の環境に配置した場合にかなりのリスクが生じる。
この課題に対処するために、MARLパラダイムに拡散モデルを統合する革新的なフレームワークを導入する。
このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。
我々のフレームワークは、予測軌道生成のための拡散モデルによって強化された、分散実行による集中訓練(CTDE)アーキテクチャに基礎を置いている。
さらに、運用上の安全性をさらに確保するために、特殊なアルゴリズムを組み込んだ。
DSRLベンチマークを用いて,ベースラインに対するモデルの評価を行った。
実験結果から, 本モデルは厳密な安全制約に固執するだけでなく, 既存の手法と比較して優れた性能が得られることが示された。
このことは、現実世界のアプリケーションにおけるMARLの安全性と有効性向上における我々のアプローチの可能性を浮き彫りにしている。
関連論文リスト
- FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。
本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:57:45Z) - A Formal Framework for Assessing and Mitigating Emergent Security Risks in Generative AI Models: Bridging Theory and Dynamic Risk Mitigation [0.3413711585591077]
大規模言語モデル(LLM)や拡散モデルを含む生成AIシステムが急速に進歩するにつれ、その採用が増加し、新たな複雑なセキュリティリスクがもたらされた。
本稿では,これらの突発的なセキュリティリスクを分類・緩和するための新しい形式的枠組みを提案する。
我々は、潜時空間利用、マルチモーダル・クロスアタック・ベクター、フィードバックループによるモデル劣化など、未探索のリスクを特定した。
論文 参考訳(メタデータ) (2024-10-15T02:51:32Z) - Active Learning for Robust and Representative LLM Generation in Safety-Critical Scenarios [32.16984263644299]
大きな言語モデル(LLM)は、安全対策のための貴重なデータを生成することができるが、しばしば分布バイアスを示す。
LLM生成を導くために,アクティブラーニングとクラスタリングを統合した新しいフレームワークを提案する。
この結果から,提案フレームワークは,基礎となるデータ分布の事前知識を必要とせずに,より代表的な安全シナリオを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-10-14T21:48:14Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - DeepSafeMPC: Deep Learning-Based Model Predictive Control for Safe
Multi-Agent Reinforcement Learning [11.407941376728258]
安全なマルチエージェント強化学習(DeepSafeMPC)のためのDeep Learning-based Model Predictive Controlと呼ばれる新しい手法を提案する。
DeepSafeMPCの重要な洞察は、環境力学を正確に予測するために、エンタライズされたディープラーニングモデルを活用することである。
Safe Multi-agent MuJoCo 環境を用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-11T03:17:33Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - SafeDiffuser: Safe Planning with Diffusion Probabilistic Models [97.80042457099718]
拡散モデルに基づくアプローチは、データ駆動計画において有望であるが、安全保証はない。
我々は,拡散確率モデルが仕様を満たすことを保証するために,SafeDiffuserと呼ばれる新しい手法を提案する。
提案手法は,迷路経路の生成,足歩行ロボットの移動,空間操作など,安全な計画作業の一連のテストを行う。
論文 参考訳(メタデータ) (2023-05-31T19:38:12Z) - Risk-Averse Model Uncertainty for Distributionally Robust Safe
Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。
我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。
安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文 参考訳(メタデータ) (2023-01-30T00:37:06Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。