論文の概要: AgentBreeder: Mitigating the AI Safety Impact of Multi-Agent Scaffolds via Self-Improvement
- arxiv url: http://arxiv.org/abs/2502.00757v2
- Date: Mon, 14 Apr 2025 10:39:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:47:57.265984
- Title: AgentBreeder: Mitigating the AI Safety Impact of Multi-Agent Scaffolds via Self-Improvement
- Title(参考訳): AgentBreeder: 自己改善によるマルチエージェントスキャフォールドのAI安全性への影響の軽減
- Authors: J Rosser, Jakob Nicolaus Foerster,
- Abstract要約: 大規模言語モデル(LLM)をマルチエージェントシステムに置き換えることによって、複雑なタスクのパフォーマンスが向上することが多い。
しかし、そのような足場による安全性への影響は十分に調査されていない。
我々は,足場上での多目的自己改善進化探索のためのフレームワークであるAgentBreederを紹介する。
- 参考スコア(独自算出の注目度): 3.8421506742795652
- License:
- Abstract: Scaffolding Large Language Models (LLMs) into multi-agent systems often improves performance on complex tasks, but the safety impact of such scaffolds has not been thoroughly explored. We introduce AgentBreeder, a framework for multi-objective self-improving evolutionary search over scaffolds. We evaluate discovered scaffolds on widely recognized reasoning, mathematics, and safety benchmarks and compare them with popular baselines. In 'blue' mode, we see a 79.4% average uplift in safety benchmark performance while maintaining or improving capability scores. In 'red' mode, we find adversarially weak scaffolds emerging concurrently with capability optimization. Our work demonstrates the risks of multi-agent scaffolding and provides a framework for mitigating them. Code is available at https://github.com/J-Rosser-UK/AgentBreeder.
- Abstract(参考訳): 大規模言語モデル(LLM)をマルチエージェントシステムにスキャフォールディングすることで、複雑なタスクのパフォーマンスが向上することが多いが、そのような足場による安全性への影響は十分に調べられていない。
本稿では,足場上での多目的自己改善進化探索のためのフレームワークであるAgentBreederを紹介する。
我々は、広く認識されている推論、数学、安全性のベンチマークに基づいて、発見された足場を評価し、それらを一般的なベースラインと比較した。
ブルーモードでは、安全性ベンチマークのパフォーマンスが平均79.4%向上し、性能スコアが維持または改善される。
レッドモードでは、機能最適化と並行して、逆向きに弱い足場が出現する。
私たちの研究は、マルチエージェントスキャフォールディングのリスクを示し、それらを緩和するためのフレームワークを提供します。
コードはhttps://github.com/J-Rosser-UK/AgentBreederで入手できる。
関連論文リスト
- Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。
エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。
各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文 参考訳(メタデータ) (2025-02-19T23:03:21Z) - Scalable Safe Multi-Agent Reinforcement Learning for Multi-Agent System [1.0124625066746598]
報酬形成のみに依存する既存のマルチエージェント強化学習(MARL)アルゴリズムは、安全性を確保するのに有効ではない。
本稿では,MARL手法の安全性とスケーラビリティを高めるために,スケーラブルセーフMARL(Scalable Safe MARL)を提案する。
SS-MARLは,ベースラインに比べて最適性と安全性のトレードオフが良好であることを示し,そのスケーラビリティは多数のエージェントを持つシナリオにおいて,最新の手法よりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2025-01-23T15:01:19Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints [0.0]
マルチエージェント強化学習パラダイムに拡散モデルを統合する革新的なフレームワークを導入する。
このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。
論文 参考訳(メタデータ) (2024-06-30T16:05:31Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z) - Multi-Agent Reinforcement Learning Guided by Signal Temporal Logic
Specifications [22.407388715224283]
STL誘導型マルチエージェント強化学習フレームワークを提案する。
STL要求は、各エージェントの目的と安全仕様に応じてタスク仕様の両方を含むように設計され、STL仕様の値は、報酬を生成するために活用される。
論文 参考訳(メタデータ) (2023-06-11T23:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。