Fugu-MT 論文翻訳(概要): Scalable Safe Multi-Agent Reinforcement Learning for Multi-Agent System

論文の概要: Scalable Safe Multi-Agent Reinforcement Learning for Multi-Agent System

arxiv url: http://arxiv.org/abs/2501.13727v1
Date: Thu, 23 Jan 2025 15:01:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-24 19:17:07.309685
Title: Scalable Safe Multi-Agent Reinforcement Learning for Multi-Agent System
Title（参考訳）: マルチエージェントシステムのためのスケーラブルな安全マルチエージェント強化学習
Authors: Haikuo Du, Fandi Gou, Yunze Cai,
Abstract要約: 報酬形成のみに依存する既存のマルチエージェント強化学習(MARL)アルゴリズムは、安全性を確保するのに有効ではない。本稿では,MARL手法の安全性とスケーラビリティを高めるために,スケーラブルセーフMARL(Scalable Safe MARL)を提案する。 SS-MARLは,ベースラインに比べて最適性と安全性のトレードオフが良好であることを示し,そのスケーラビリティは多数のエージェントを持つシナリオにおいて,最新の手法よりも著しく優れていることを示す。
参考スコア（独自算出の注目度）: 1.0124625066746598
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Safety and scalability are two critical challenges faced by practical Multi-Agent Systems (MAS). However, existing Multi-Agent Reinforcement Learning (MARL) algorithms that rely solely on reward shaping are ineffective in ensuring safety, and their scalability is rather limited due to the fixed-size network output. To address these issues, we propose a novel framework, Scalable Safe MARL (SS-MARL), to enhance the safety and scalability of MARL methods. Leveraging the inherent graph structure of MAS, we design a multi-layer message passing network to aggregate local observations and communications of varying sizes. Furthermore, we develop a constrained joint policy optimization method in the setting of local observation to improve safety. Simulation experiments demonstrate that SS-MARL achieves a better trade-off between optimality and safety compared to baselines, and its scalability significantly outperforms the latest methods in scenarios with a large number of agents. The feasibility of our method is also verified by hardware implementation with Mecanum-wheeled vehicles.
Abstract（参考訳）: 安全性とスケーラビリティは、実用マルチエージェントシステム(MAS)が直面する2つの重要な課題である。しかし、報酬形成のみに依存する既存のマルチエージェント強化学習(MARL)アルゴリズムは、安全性を確保するには効果がなく、そのスケーラビリティは固定サイズのネットワーク出力によってかなり制限されている。これらの課題に対処するため,我々は,MARL手法の安全性とスケーラビリティを高めるために,スケーラブルセーフMARL (SS-MARL) という新しいフレームワークを提案する。我々はMASの固有のグラフ構造を活用し,様々な大きさの局所的な観測と通信を集約する多層メッセージパッシングネットワークを設計する。さらに,局所観測設定における制約付き共同政策最適化手法を開発し,安全性を向上する。シミュレーション実験により、SS-MARLはベースラインよりも最適性と安全性のトレードオフが良好であることを示し、そのスケーラビリティは多数のエージェントを持つシナリオにおいて、最新の手法よりも著しく優れていた。また,Mecanum-wheeled vehicleによるハードウェア実装により本手法の有効性を検証した。

関連論文リスト

Enhancing Robustness of LLM-Driven Multi-Agent Systems through Randomized Smoothing [13.997409139696556]
本稿では,大型言語モデル(LLM)の安全性向上のための枠組みとして,航空宇宙などの安全クリティカル領域におけるマルチエージェントシステム(MAS)について述べる。統計的ロバスト性証明手法であるランダム化スムーシングをMASコンセンサス・コンテキストに適用し、敵の影響下でのエージェント決定に対する確率的保証を可能にする。
論文参考訳（メタデータ） (2025-07-05T17:26:08Z)
Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。 LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文参考訳（メタデータ） (2025-06-02T04:33:56Z)
A Weighted Byzantine Fault Tolerance Consensus Driven Trusted Multiple Large Language Models Network [53.37983409425452]
大規模言語モデル(LLM)は幅広いアプリケーションで大きな成功を収めています。近年,MultiLLMネットワーク(MultiLLMN)などの協調フレームワークが導入されている。重み付きビザンチンフォールトトレランス(WBFT)ブロックチェーンコンセンサス機構によって駆動される新しいTrusted MultiLLMNフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-08T10:04:41Z)
A Trustworthy Multi-LLM Network: Challenges,Solutions, and A Use Case [59.58213261128626]
複数の大規模言語モデル(LLM)を信頼性のあるマルチLLMネットワーク(MultiLLMN)に接続するブロックチェーン対応協調フレームワークを提案する。このアーキテクチャは、複雑なネットワーク最適化問題に対する最も信頼性が高く高品質な応答の協調評価と選択を可能にする。
論文参考訳（メタデータ） (2025-05-06T05:32:46Z)
DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models [37.104276926258095]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの統合により、ユニークな安全性上の課題を提起する。 textbfDREAM(textittextbfDisentangling textbfRisks to textbfEnhance Safety textbfAlignment in textbfMLLMs)を導入する。
論文参考訳（メタデータ） (2025-04-25T03:54:24Z)
Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文参考訳（メタデータ） (2025-04-14T09:03:51Z)
Safe Multi-Agent Reinforcement Learning with Convergence to Generalized Nash Equilibrium [6.169364905804677]
マルチエージェント強化学習(MARL)は協調作業において顕著な成功を収めた。 MARLエージェントを現実世界のアプリケーションにデプロイすることは、重大な安全性上の課題を示す。我々は,エージェントが訪れるすべての状態において,安全要件を強制する,$textitstate-wise$制約付き安全なMARLの新たな理論的枠組みを提案する。複雑な高次元システムにおける実践的展開のために、$textitMulti-Agent Dual Actor-Critic$ (MADAC)を提案する。
論文参考訳（メタデータ） (2024-11-22T16:08:42Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints [0.0]
マルチエージェント強化学習パラダイムに拡散モデルを統合する革新的なフレームワークを導入する。このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。
論文参考訳（メタデータ） (2024-06-30T16:05:31Z)
RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文参考訳（メタデータ） (2024-03-19T07:25:02Z)
Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文参考訳（メタデータ） (2023-06-29T15:57:07Z)
Model-based Dynamic Shielding for Safe and Efficient Multi-Agent Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。 MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文参考訳（メタデータ） (2023-04-13T06:08:10Z)
Multi-Agent Constrained Policy Optimisation [17.772811770726296]
制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。マルチエージェント制約付き政策最適化 (MACPO) とMAPPO-ラグランジアン (MAPPO-Lagrangian) は、制約付き政策最適化とマルチエージェント信頼領域学習の両方から理論を利用する。我々は,様々なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。
論文参考訳（メタデータ） (2021-10-06T14:17:09Z)
Locality Matters: A Scalable Value Decomposition Approach for Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文参考訳（メタデータ） (2021-09-22T10:08:15Z)
Practical Machine Learning Safety: A Survey and Primer [81.73857913779534]
自動運転車のような安全クリティカルなアプリケーションにおける機械学習アルゴリズムのオープンワールド展開は、さまざまなML脆弱性に対処する必要がある。一般化エラーを低減し、ドメイン適応を実現し、外乱例や敵攻撃を検出するための新しいモデルと訓練技術。我々の組織は、MLアルゴリズムの信頼性を異なる側面から向上するために、最先端のML技術を安全戦略にマッピングする。
論文参考訳（メタデータ） (2021-06-09T05:56:42Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。