Fugu-MT 論文翻訳(概要): AgentBreeder: Mitigating the AI Safety Impact of Multi-Agent Scaffolds

論文の概要: AgentBreeder: Mitigating the AI Safety Impact of Multi-Agent Scaffolds

arxiv url: http://arxiv.org/abs/2502.00757v1
Date: Sun, 02 Feb 2025 11:40:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:54.146427
Title: AgentBreeder: Mitigating the AI Safety Impact of Multi-Agent Scaffolds
Title（参考訳）: AgentBreeder: マルチエージェントスキャフォールドのAI安全性への影響の軽減
Authors: J Rosser, Jakob Nicolaus Foerster,
Abstract要約: AgentBREEDERは足場上の多目的進化探索のためのフレームワークである。私たちの研究は、マルチエージェントの足場による安全性のリスクを強調し、軽減します。
参考スコア（独自算出の注目度）: 3.8421506742795652
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Scaffolding Large Language Models (LLMs) into multi-agent systems often improves performance on complex tasks, but the safety impact of such scaffolds has not been as thoroughly explored. In this paper, we introduce AGENTBREEDER a framework for multi-objective evolutionary search over scaffolds. Our REDAGENTBREEDER evolves scaffolds towards jailbreaking the base LLM while achieving high task success, while BLUEAGENTBREEDER instead aims to combine safety with task reward. We evaluate the systems discovered by the different instances of AGENTBREEDER and popular baselines using widely recognized reasoning, mathematics, and safety benchmarks. Our work highlights and mitigates the safety risks due to multi-agent scaffolding.
Abstract（参考訳）: 大規模言語モデル(LLM)をマルチエージェントシステムにスキャフォールディングすることで、複雑なタスクのパフォーマンスが向上することが多いが、そのような足場による安全性への影響は十分に調査されていない。本稿では,足場上での多目的進化探索のためのフレームワークである AgentBREEDER を紹介する。我々のREDAGENTBREEDERは、高いタスク成功を達成しつつ、ベースLLMのジェイルブレイクに向けて足場を進化させ、代わりにBLUEAGENTBREEDERはタスク報酬と安全を組み合わせようとしている。我々は、広く認識されている推論、数学、安全ベンチマークを用いて、エージェントBREEDERと一般的なベースラインの異なる事例で発見されたシステムを評価する。私たちの研究は、マルチエージェントの足場による安全性のリスクを強調し、軽減します。

関連論文リスト

Kaleidoscopic Teaming in Multi Agent Simulations [75.47388708240042]
我々は,エージェントが行う複雑な行動,思考プロセス,行動の安全性リスクを評価する上で,既存のレッドチームや安全評価フレームワークは不十分であると主張している。我々は,新しいコンテキスト内最適化手法を導入し,安全解析のためのより良いシナリオを生成する。エージェントの安全性を測定するためのフレームワークとともに使用できる適切なメトリクスを提案する。
論文参考訳（メタデータ） (2025-06-20T23:37:17Z)
AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。既存のエージェントサーチ手法には3つの大きな制限がある。これらの課題に対処するための包括的なフレームワークを導入します。
論文参考訳（メタデータ） (2025-06-06T12:07:23Z)
SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文参考訳（メタデータ） (2025-05-30T04:25:19Z)
MAPS: A Multilingual Benchmark for Global Agent Performance and Security [8.275240552134338]
多様な言語やタスクにまたがるエージェントAIシステムを評価するためのベンチマークスイートであるMAPSを提案する。それぞれのデータセットを10の多様な言語に変換し、805のユニークなタスクと8,855の言語固有のインスタンスを生成します。我々は、英語から他の言語に移行する際に、パフォーマンスとセキュリティの両面で一貫した劣化を観察する。
論文参考訳（メタデータ） (2025-05-21T18:42:00Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [84.94654617852322]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文参考訳（メタデータ） (2025-04-18T20:36:10Z)
AutoAdvExBench: Benchmarking autonomous exploitation of adversarial example defenses [66.87883360545361]
AutoAdvExBenchは、大規模言語モデル(LLM)が敵の例に対する防衛を自律的に活用できるかどうかを評価するためのベンチマークである。我々は,CTF様(ホームワークエクササイズ)の75%を破壊できる強力なエージェントを設計する。このエージェントは、我々のベンチマークの現実世界の防御の13%でしか成功できないことを示し、実際の"コードを攻撃することの難しさとCTFライクなコードとの間に大きなギャップがあることを示します。
論文参考訳（メタデータ） (2025-03-03T18:39:48Z)
Scalable Safe Multi-Agent Reinforcement Learning for Multi-Agent System [1.0124625066746598]
報酬形成のみに依存する既存のマルチエージェント強化学習(MARL)アルゴリズムは、安全性を確保するのに有効ではない。本稿では,MARL手法の安全性とスケーラビリティを高めるために,スケーラブルセーフMARL(Scalable Safe MARL)を提案する。 SS-MARLは,ベースラインに比べて最適性と安全性のトレードオフが良好であることを示し,そのスケーラビリティは多数のエージェントを持つシナリオにおいて,最新の手法よりも著しく優れていることを示す。
論文参考訳（メタデータ） (2025-01-23T15:01:19Z)
Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。 Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。 16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文参考訳（メタデータ） (2024-12-19T02:35:15Z)
Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。 MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文参考訳（メタデータ） (2024-10-08T16:16:07Z)
AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文参考訳（メタデータ） (2024-10-04T08:24:15Z)
Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文参考訳（メタデータ） (2024-07-30T14:35:31Z)
Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints [0.0]
マルチエージェント強化学習パラダイムに拡散モデルを統合する革新的なフレームワークを導入する。このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。
論文参考訳（メタデータ） (2024-06-30T16:05:31Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文参考訳（メタデータ） (2024-06-06T15:15:41Z)
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (2024-02-07T17:33:54Z)
Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文参考訳（メタデータ） (2023-11-20T15:50:09Z)
AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文参考訳（メタデータ） (2023-08-21T16:47:11Z)
AGI Agent Safety by Iteratively Improving the Utility Function [0.0]
本稿では,AGIエージェントのユーティリティ機能の反復的改善を支援するために,専用の入力端末を作成するAGIセーフティ層を提案する。因果影響図(CID)にマッピングする作業が進行中であることを示す。次に、既知の機械学習システムや将来のAGIレベルの学習システムに、安全層をラップする学習エージェントの設計を示す。
論文参考訳（メタデータ） (2020-07-10T14:30:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。