Fugu-MT 論文翻訳(概要): Safe Multi-Agent Reinforcement Learning via Shielding

論文の概要: Safe Multi-Agent Reinforcement Learning via Shielding

arxiv url: http://arxiv.org/abs/2101.11196v2
Date: Tue, 2 Feb 2021 18:30:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-13 19:41:56.311831
Title: Safe Multi-Agent Reinforcement Learning via Shielding
Title（参考訳）: シールドによる安全マルチエージェント強化学習
Authors: Ingy Elsayed-Aly, Suda Bharadwaj, Christopher Amato, R\"udiger Ehlers, Ufuk Topcu, Lu Feng
Abstract要約: マルチエージェント強化学習(MARL)は、幅広い安全性クリティカルなアプリケーションでますます使用されています。現在のMARL法には安全保証がない。安全マルルの遮蔽アプローチを2つ紹介する。
参考スコア（独自算出の注目度）: 29.49529835154155
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-agent reinforcement learning (MARL) has been increasingly used in a wide range of safety-critical applications, which require guaranteed safety (e.g., no unsafe states are ever visited) during the learning process.Unfortunately, current MARL methods do not have safety guarantees. Therefore, we present two shielding approaches for safe MARL. In centralized shielding, we synthesize a single shield to monitor all agents' joint actions and correct any unsafe action if necessary. In factored shielding, we synthesize multiple shields based on a factorization of the joint state space observed by all agents; the set of shields monitors agents concurrently and each shield is only responsible for a subset of agents at each step.Experimental results show that both approaches can guarantee the safety of agents during learning without compromising the quality of learned policies; moreover, factored shielding is more scalable in the number of agents than centralized shielding.
Abstract（参考訳）: マルチエージェント強化学習(MARL)は、学習プロセス中に保証された安全性(例えば、安全でない状態は一度も訪れない)を必要とする幅広い安全クリティカルなアプリケーションで、ますます使われている。そこで,安全MARLに対する2つの遮蔽手法を提案する。集中シールドでは,すべてのエージェントの協調動作を監視し,必要ならば安全でない動作を補正するために,単一のシールドを合成する。因子遮蔽では,すべてのエージェントが観察する結合状態空間の因子化に基づいて複数のシールドを合成し,各シールドはエージェントのサブセットにのみ責任を負う。実験結果から,各シールドは学習中のエージェントの安全性を,学習方針の質を損なうことなく保証できることがわかった。さらに,因子遮蔽は中央集権遮蔽よりも,エージェント数でよりスケーラブルである。

関連論文リスト

Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。 SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。 SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文参考訳（メタデータ） (2025-07-29T17:39:48Z)
Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文参考訳（メタデータ） (2025-03-09T17:54:33Z)
Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。 Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。 16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文参考訳（メタデータ） (2024-12-19T02:35:15Z)
Compositional Shielding and Reinforcement Learning for Multi-Agent Systems [1.124958340749622]
高度な強化学習は、高性能なポリシーを得るための強力なツールとして登場した。安全を保証するための有望なパラダイムの1つは、安全でない行動からポリシーを守るシールドである。本研究では,マルチエージェント遮蔽のための新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-14T12:52:48Z)
Realizable Continuous-Space Shields for Safe Reinforcement Learning [13.728961635717134]
深層強化学習(Dep Reinforcement Learning, DRL)は、時には破滅的な障害に対して、追加の保護なしに脆弱なままである。効果的な解決策の1つは、エージェントのアクションを検証・調整するシールドを使用して、与えられた一連の安全仕様に準拠することである。本研究では,連続状態および行動空間における安全要件の実現可能性を自動的に保証する最初の遮蔽手法を提案する。
論文参考訳（メタデータ） (2024-10-02T21:08:11Z)
Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
Verification-Guided Shielding for Deep Reinforcement Learning [4.418183967223081]
Deep Reinforcement Learning (DRL)は、現実世界の課題を解決するための効果的なアプローチとして登場した。正式な安全保証を提供することで、この問題に対処する様々な方法が提案されている。これら2つの手法を統合することでDRLの信頼性ギャップを橋渡しする新しい手法である検証誘導遮蔽法を提案する。
論文参考訳（メタデータ） (2024-06-10T17:44:59Z)
Towards Comprehensive and Efficient Post Safety Alignment of Large Language Models via Safety Patching [77.36097118561057]
textscSafePatchingは包括的で効率的なPSAのための新しいフレームワークである。 textscSafePatchingはベースラインメソッドよりも包括的で効率的なPSAを実現する。
論文参考訳（メタデータ） (2024-05-22T16:51:07Z)
ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors [90.73444232283371]
ShieldLMは、LLM(Large Language Models)の安全性検出装置で、一般的な安全基準に準拠している。 ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文参考訳（メタデータ） (2024-02-26T09:43:02Z)
Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文参考訳（メタデータ） (2023-07-27T15:19:45Z)
Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文参考訳（メタデータ） (2023-04-21T16:19:54Z)
Model-based Dynamic Shielding for Safe and Efficient Multi-Agent Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。 MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文参考訳（メタデータ） (2023-04-13T06:08:10Z)
Online Shielding for Reinforcement Learning [59.86192283565134]
RLエージェントのオンライン安全保護のためのアプローチを提案する。実行中、シールドは利用可能な各アクションの安全性を分析する。この確率と与えられた閾値に基づいて、シールドはエージェントからのアクションをブロックするかを決定する。
論文参考訳（メタデータ） (2022-12-04T16:00:29Z)
Safe Reinforcement Learning via Shielding for POMDPs [29.058332307331785]
安全クリティカルな環境での強化学習(RL)は、破滅的な結果の決定を避けるためにエージェントを必要とする。我々は,PMDPと最先端の深部RLアルゴリズムの密結合性について検討し,徹底的に評価する。我々は、シールドを用いたRLエージェントが安全であるだけでなく、期待される報酬のより高い値に収束することを実証的に実証した。
論文参考訳（メタデータ） (2022-04-02T03:51:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。