Fugu-MT 論文翻訳(概要): Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints

論文の概要: Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints

arxiv url: http://arxiv.org/abs/2407.00741v6
Date: Sun, 29 Sep 2024 04:24:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 04:20:39.815418
Title: Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints
Title（参考訳）: 安全制約を考慮したオフラインマルチエージェント強化学習のための拡散モデル
Authors: Jianuo Huang,
Abstract要約: マルチエージェント強化学習パラダイムに拡散モデルを統合する革新的なフレームワークを導入する。このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent advancements in Multi-agent Reinforcement Learning (MARL), its application has extended to various safety-critical scenarios. However, most methods focus on online learning, which presents substantial risks when deployed in real-world settings. Addressing this challenge, we introduce an innovative framework integrating diffusion models within the MARL paradigm. This approach notably enhances the safety of actions taken by multiple agents through risk mitigation while modeling coordinated action. Our framework is grounded in the Centralized Training with Decentralized Execution (CTDE) architecture, augmented by a Diffusion Model for prediction trajectory generation. Additionally, we incorporate a specialized algorithm to further ensure operational safety. We evaluate our model against baselines on the DSRL benchmark. Experiment results demonstrate that our model not only adheres to stringent safety constraints but also achieves superior performance compared to existing methodologies. This underscores the potential of our approach in advancing the safety and efficacy of MARL in real-world applications.
Abstract（参考訳）: 近年のMARL(Multi-agent Reinforcement Learning)の進歩により、その応用は様々な安全クリティカルなシナリオにまで拡張されている。しかし,ほとんどの手法はオンライン学習に重点を置いており,実際の環境に配置した場合にかなりのリスクが生じる。この課題に対処するために、MARLパラダイムに拡散モデルを統合する革新的なフレームワークを導入する。このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。我々のフレームワークは、予測軌道生成のための拡散モデルによって強化された、分散実行による集中訓練(CTDE)アーキテクチャに基礎を置いている。さらに、運用上の安全性をさらに確保するために、特殊なアルゴリズムを組み込んだ。 DSRLベンチマークを用いて,ベースラインに対するモデルの評価を行った。実験結果から, 本モデルは厳密な安全制約に固執するだけでなく, 既存の手法と比較して優れた性能が得られることが示された。このことは、現実世界のアプリケーションにおけるMARLの安全性と有効性向上における我々のアプローチの可能性を浮き彫りにしている。

関連論文リスト

Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-12T22:03:35Z)
From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文参考訳（メタデータ） (2026-01-28T09:29:40Z)
AURA: Affordance-Understanding and Risk-aware Alignment Technique for Large Language Models [6.059681491089391]
AURAは論理的一貫性と安全性を認識した総合的、段階的な評価を提供する。本フレームワークは, 内省的自己批判, きめ細かいPRM評価, 適応型安全認識復号をシームレスに結合する。この研究は、アライメントに敏感なアプリケーションのための新しいベンチマークを設定することで、より安全で責任があり、コンテキストに敏感なAIに向けた重要なステップである。
論文参考訳（メタデータ） (2025-08-08T08:43:24Z)
Saffron-1: Safety Inference Scaling [69.61130284742353]
SAFFRONは、安全保証のために明示的に調整された、新しい推論スケーリングパラダイムである。我々のアプローチの中心は、要求される報酬モデルの評価を著しく削減する乗算報酬モデル(MRM)の導入である。トレーニング済みの多機能報酬モデル(Saffron-1)とそれに伴うトークンレベルの安全報酬データセット(Safety4M)を公開します。
論文参考訳（メタデータ） (2025-06-06T18:05:45Z)
Safety Alignment Can Be Not Superficial With Explicit Safety Signals [8.297367440457508]
大規模言語モデル(LLM)の安全性アライメントに関する最近の研究は、既存のアプローチがしばしば表面的に機能することを明らかにしている。既存のアライメントアプローチでは、アライメントプロセス中にモデルが暗黙的に安全関連推論タスクを学習できると考えられる。安全関連バイナリ分類タスクを明示的に導入し,その信号を注意と復号化戦略に統合することにより,この曖昧さを解消する。
論文参考訳（メタデータ） (2025-05-19T20:40:46Z)
Scalable Safe Multi-Agent Reinforcement Learning for Multi-Agent System [1.0124625066746598]
報酬形成のみに依存する既存のマルチエージェント強化学習(MARL)アルゴリズムは、安全性を確保するのに有効ではない。本稿では,MARL手法の安全性とスケーラビリティを高めるために,スケーラブルセーフMARL(Scalable Safe MARL)を提案する。 SS-MARLは,ベースラインに比べて最適性と安全性のトレードオフが良好であることを示し,そのスケーラビリティは多数のエージェントを持つシナリオにおいて,最新の手法よりも著しく優れていることを示す。
論文参考訳（メタデータ） (2025-01-23T15:01:19Z)
FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文参考訳（メタデータ） (2024-10-21T10:57:45Z)
A Formal Framework for Assessing and Mitigating Emergent Security Risks in Generative AI Models: Bridging Theory and Dynamic Risk Mitigation [0.3413711585591077]
大規模言語モデル(LLM)や拡散モデルを含む生成AIシステムが急速に進歩するにつれ、その採用が増加し、新たな複雑なセキュリティリスクがもたらされた。本稿では,これらの突発的なセキュリティリスクを分類・緩和するための新しい形式的枠組みを提案する。我々は、潜時空間利用、マルチモーダル・クロスアタック・ベクター、フィードバックループによるモデル劣化など、未探索のリスクを特定した。
論文参考訳（メタデータ） (2024-10-15T02:51:32Z)
Active Learning for Robust and Representative LLM Generation in Safety-Critical Scenarios [32.16984263644299]
大きな言語モデル(LLM)は、安全対策のための貴重なデータを生成することができるが、しばしば分布バイアスを示す。 LLM生成を導くために,アクティブラーニングとクラスタリングを統合した新しいフレームワークを提案する。この結果から,提案フレームワークは,基礎となるデータ分布の事前知識を必要とせずに,より代表的な安全シナリオを生成できることが示唆された。
論文参考訳（メタデータ） (2024-10-14T21:48:14Z)
RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文参考訳（メタデータ） (2024-03-19T07:25:02Z)
DeepSafeMPC: Deep Learning-Based Model Predictive Control for Safe Multi-Agent Reinforcement Learning [11.407941376728258]
安全なマルチエージェント強化学習(DeepSafeMPC)のためのDeep Learning-based Model Predictive Controlと呼ばれる新しい手法を提案する。 DeepSafeMPCの重要な洞察は、環境力学を正確に予測するために、エンタライズされたディープラーニングモデルを活用することである。 Safe Multi-agent MuJoCo 環境を用いて,本手法の有効性を示す。
論文参考訳（メタデータ） (2024-03-11T03:17:33Z)
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-12-18T16:09:43Z)
MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。 MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文参考訳（メタデータ） (2023-07-13T08:10:48Z)
SafeDiffuser: Safe Planning with Diffusion Probabilistic Models [97.80042457099718]
拡散モデルに基づくアプローチは、データ駆動計画において有望であるが、安全保証はない。我々は,拡散確率モデルが仕様を満たすことを保証するために,SafeDiffuserと呼ばれる新しい手法を提案する。提案手法は,迷路経路の生成,足歩行ロボットの移動,空間操作など,安全な計画作業の一連のテストを行う。
論文参考訳（メタデータ） (2023-05-31T19:38:12Z)
Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文参考訳（メタデータ） (2023-01-30T00:37:06Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。 LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文参考訳（メタデータ） (2022-01-24T17:02:22Z)
SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文参考訳（メタデータ） (2020-06-12T10:40:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。