論文の概要: MAEBE: Multi-Agent Emergent Behavior Framework
- arxiv url: http://arxiv.org/abs/2506.03053v1
- Date: Tue, 03 Jun 2025 16:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.831914
- Title: MAEBE: Multi-Agent Emergent Behavior Framework
- Title(参考訳): MAEBE:マルチエージェントの創発的行動フレームワーク
- Authors: Sinem Erisken, Timothy Gothard, Martin Leitgab, Ram Potham,
- Abstract要約: 本稿では,このようなリスクを評価するための多エージェント行動評価フレームワークを提案する。
我々の研究結果は、インタラクティブでマルチエージェントなコンテキストにおいて、AIシステムを評価する必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional AI safety evaluations on isolated LLMs are insufficient as multi-agent AI ensembles become prevalent, introducing novel emergent risks. This paper introduces the Multi-Agent Emergent Behavior Evaluation (MAEBE) framework to systematically assess such risks. Using MAEBE with the Greatest Good Benchmark (and a novel double-inversion question technique), we demonstrate that: (1) LLM moral preferences, particularly for Instrumental Harm, are surprisingly brittle and shift significantly with question framing, both in single agents and ensembles. (2) The moral reasoning of LLM ensembles is not directly predictable from isolated agent behavior due to emergent group dynamics. (3) Specifically, ensembles exhibit phenomena like peer pressure influencing convergence, even when guided by a supervisor, highlighting distinct safety and alignment challenges. Our findings underscore the necessity of evaluating AI systems in their interactive, multi-agent contexts.
- Abstract(参考訳): 孤立LLMに対する従来のAI安全性評価は、マルチエージェントAIアンサンブルが普及するにつれて不十分であり、新たな緊急リスクがもたらされる。
本稿では,このようなリスクを体系的に評価するためのマルチエージェント・創発的行動評価(MAEBE)フレームワークを紹介する。
1) LLMの道徳的嗜好、特にインストゥルメンタル・ハームは驚くほど不安定で、単一のエージェントとアンサンブルの両方において、質問フレーミングによって大きく変化します。
2) LLMアンサンブルの道徳的推論は, 創発的グループダイナミクスによる孤立剤挙動から直接は予測できない。
(3)特に、アンサンブルは、監督官が指導した場合でも、ピア圧力が収束に影響を与えるような現象を示し、異なる安全性とアライメントの課題を強調している。
我々の研究結果は、インタラクティブでマルチエージェントなコンテキストにおいて、AIシステムを評価する必要性を浮き彫りにしている。
関連論文リスト
- Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフラインマルチエージェント強化学習(MARL)は、分散シフトと関節行動空間の高次元性に起因する重要な課題に直面している。
多様なマルチエージェント協調パターンをモデル化するための新しい2段階フレームワークを提案する。
本手法は,協調型マルチエージェントシステムにおけるオフライン協調と平衡選択に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - The Rise of Darkness: Safety-Utility Trade-Offs in Role-Playing Dialogue Agents [29.974647411289826]
LLM(Large Language Models)はロールプレイング対話エージェントにおいて顕著な進歩を遂げ、文字シミュレーションにおいてその有用性を実証している。
この本質的なキャラクターシミュレーションは、安全でないコンテンツを生成するリスクが伴うため、これらのエージェントがキャラクタ描写ユーティリティとコンテンツ安全性のバランスを取ることは依然として困難である。
本稿では,リスクカップリングの度合いに基づいて安全ユーティリティの嗜好を動的に調整する適応動的マルチパラメータ(ADMP)手法を提案する。
論文 参考訳(メタデータ) (2025-02-28T06:18:50Z) - Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。
エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。
各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文 参考訳(メタデータ) (2025-02-19T23:03:21Z) - Do as We Do, Not as You Think: the Conformity of Large Language Models [46.23852835759767]
本稿では,大規模言語モデル(LLM)による協調型AIシステムにおける適合性について述べる。
適合性の存在、適合性に影響を与える要因、潜在的な緩和戦略の3つの側面に焦点を当てる。
本分析では, 相互作用時間や過半数サイズなど, 適合性に影響を与える要因を解明し, 対象エージェントが適合行動をどのように合理化するかを検討する。
論文 参考訳(メタデータ) (2025-01-23T04:50:03Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。