論文の概要: Soft-Label Governance for Distributional Safety in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2604.19752v1
- Date: Thu, 19 Mar 2026 00:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.042695
- Title: Soft-Label Governance for Distributional Safety in Multi-Agent Systems
- Title(参考訳): マルチエージェントシステムにおける分散安全のためのソフトラベルガバナンス
- Authors: Aizierjiang Aiersilan, Raeli Savitt,
- Abstract要約: マルチエージェントAIシステムは、単独のエージェントが単独で生成しない突発的なリスクを示す。
本稿では,バイナリグッド/バッドラベルをemphsoft確率ラベルに置き換えるシミュレーションフレームワークSWARMを紹介する。
5シードのレプリケーションを持つ7つのシナリオでは、厳格なガバナンスは安全性を向上することなく、福祉を40%以上削減する。
- 参考スコア(独自算出の注目度): 4.726777092009554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent AI systems exhibit emergent risks that no single agent produces in isolation. Existing safety frameworks rely on binary classifications of agent behavior, discarding the uncertainty inherent in proxy-based evaluation. We introduce SWARM (\textbf{S}ystem-\textbf{W}ide \textbf{A}ssessment of \textbf{R}isk in \textbf{M}ulti-agent systems), a simulation framework that replaces binary good/bad labels with \emph{soft probabilistic labels} $p = P(v{=}+1) \in [0,1]$, enabling continuous-valued payoff computation, toxicity measurement, and governance intervention. SWARM implements a modular governance engine with configurable levers (transaction taxes, circuit breakers, reputation decay, and random audits) and quantifies their effects through probabilistic metrics including expected toxicity $\mathbb{E}[1{-}p \mid \text{accepted}]$ and quality gap $\mathbb{E}[p \mid \text{accepted}] - \mathbb{E}[p \mid \text{rejected}]$. Across seven scenarios with five-seed replication, strict governance reduces welfare by over 40\% without improving safety. In parallel, aggressively internalizing system externalities collapses total welfare from a baseline of $+262$ down to $-67$, while toxicity remains invariant. Circuit breakers require careful calibration; overly restrictive thresholds severely diminish system value, whereas an optimal threshold balances moderate welfare with minimized toxicity. Companion experiments show soft metrics detect proxy gaming by self-optimizing agents passing conventional binary evaluations. This basic governance layer applies to live LLM-backed agents (Concordia entities, Claude, GPT-4o Mini) without modification. Results show distributional safety requires \emph{continuous} risk metrics and governance lever calibration involves quantifiable safety-welfare tradeoffs. Source code and project resources are publicly available at https://www.swarm-ai.org/.
- Abstract(参考訳): マルチエージェントAIシステムは、単独のエージェントが単独で生成しない突発的なリスクを示す。
既存の安全フレームワークはエージェントの動作のバイナリ分類に依存しており、プロキシベースの評価に固有の不確実性を捨てている。
SWARM(\textbf{S}ystem-\textbf{W}ide \textbf{A}ssessment of \textbf{R}isk in \textbf{M}ulti-agent system)は、バイナリグッド/バッドラベルを \emph{softprobabilistic labels} $p = P(v{=}+1) \in [0,1]$で置き換えるシミュレーションフレームワークである。
SWARMは、設定可能なレバー(トランザクション税、サーキットブレーカー、評判の低下、ランダム監査)を備えたモジュラーガバナンスエンジンを実装し、予測毒性$\mathbb{E}[1{-}p \mid \text{accepted}]$と品質ギャップ$\mathbb{E}[p \mid \text{accepted}] - \mathbb{E}[p \mid \text{rejected}]$を含む確率的メトリクスを通じてそれらの効果を定量化する。
厳格なガバナンスは、安全を向上することなく、福祉を40%以上削減する。
並行して、積極的に内部化されるシステムの外部性は、総福祉を+262$から$-67$に崩壊させるが、毒性は変わらぬままである。
回路ブレーカーは慎重な校正を必要とし、過度に制限されたしきい値がシステム価値を著しく低下させる一方、最適なしきい値は毒性を最小限に抑えて中程度の福祉を均衡させる。
コンパニオン実験では、ソフトメトリクスが従来のバイナリ評価に合格する自己最適化エージェントによってプロキシゲームを検出する。
この基本的なガバナンスレイヤは、ライブLLM支援エージェント(Concordia entity, Claude, GPT-4o Mini)に修正なしで適用されます。
その結果、分散安全性にはリスクメトリクスのemph{continuous}が必要であり、ガバナンスレバーのキャリブレーションには、定量化されたセーフティ・ウェルフェアのトレードオフが伴うことが示された。
ソースコードとプロジェクトリソースはhttps://www.swarm-ai.org/で公開されている。
関連論文リスト
- Governing What You Cannot Observe: Adaptive Runtime Governance for Autonomous AI Agents [0.0]
自律的なAIエージェントは、完全に認証されたままで、振る舞いのドリフト、敵の適応、決定パターンのシフトによって、コードの変更なしに、安全が保たれる。
エージェントの管理は、未観測のリスクに対する限界を見積もることを減らす。
textbfRiskGateはこのフレームワークを、専用の統計推定器(KL分散、セグメント-vs-rest $z$-tests、シーケンシャルパターンマッチング)、フェイルセーフなモノトニックパイプライン、クローズドループオートパイロットでインスタンス化する。
論文 参考訳(メタデータ) (2026-04-27T16:46:15Z) - Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees [6.310266319378214]
実世界の意思決定システムは、状態遷移がエージェントの行動に依存する環境で機能する。
Standard Constrained MDP の定式化は、エージェントが状態進化の唯一のドライバであると仮定する。
エージェントポリシーと敵ポリシーの両方に対する楽観性を維持するモデルベースアルゴリズムであるtextbfRobust Hallucinated Constrained Upper-Confidence RL (textttRHC-UCRL) を提案する。
論文 参考訳(メタデータ) (2026-04-15T04:53:29Z) - Learning operators on labelled conditional distributions with applications to mean field control of non exchangeable systems [3.441021278275805]
積空間上の確率測度に作用する作用素の所定の辺付き近似について検討する。
我々の主要な理論的結果は、$cal M_$ 上の連続作用素に対する普遍近似定理を確立する。
このような条件付き平均場演算子の実践的な学習を可能にするため、M_$$のトレーニング尺度を生成するためのサンプリング戦略を導入する。
論文 参考訳(メタデータ) (2026-03-23T08:13:21Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。
我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文 参考訳(メタデータ) (2026-01-24T05:32:50Z) - UCB-type Algorithm for Budget-Constrained Expert Learning [71.67657715154034]
algnameM-LCBはUCBスタイルのメタアルゴリズムであり、幻想的後悔の保証を提供する
我々は、AlgnameM-LCBが、限られたリソースの下で、ステートフルで自己学習の専門家をコーディネートする、より現実的なシナリオまで、古典的な帯域幅パラダイムをどのように拡張しているかを示す。
論文 参考訳(メタデータ) (2025-10-26T12:36:17Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。