論文の概要: Beyond Single-Agent Safety: A Taxonomy of Risks in LLM-to-LLM Interactions
- arxiv url: http://arxiv.org/abs/2512.02682v1
- Date: Tue, 02 Dec 2025 12:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.854481
- Title: Beyond Single-Agent Safety: A Taxonomy of Risks in LLM-to-LLM Interactions
- Title(参考訳): LLM-LLM相互作用におけるリスクの分類
- Authors: Piercosma Bisconti, Marcello Galisai, Federico Pierucci, Marcantonio Bracale, Matteo Prandi,
- Abstract要約: 本稿では,大規模な言語モデルが相互に相互作用する環境に,人間-モデル相互作用用に設計された安全メカニズムがスケールしない理由について検討する。
モデルレベルの安全性からシステムレベルの安全性への概念的移行を提案し,ESRH(Emergent Systemic Risk Horizon)の枠組みを導入する。
i) LLMの相互作用における集団的リスクの理論的考察,(ii)マイクロ,メソ,マクロレベルの障害モードを接続する分類法,および(iii)マルチエージェントシステムに適応的監視を組み込むアーキテクチャであるInstitutionalAIの設計を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines why safety mechanisms designed for human-model interaction do not scale to environments where large language models (LLMs) interact with each other. Most current governance practices still rely on single-agent safety containment, prompts, fine-tuning, and moderation layers that constrain individual model behavior but leave the dynamics of multi-model interaction ungoverned. These mechanisms assume a dyadic setting: one model responding to one user under stable oversight. Yet research and industrial development are rapidly shifting toward LLM-to-LLM ecosystems, where outputs are recursively reused as inputs across chains of agents. In such systems, local compliance can aggregate into collective failure even when every model is individually aligned. We propose a conceptual transition from model-level safety to system-level safety, introducing the framework of the Emergent Systemic Risk Horizon (ESRH) to formalize how instability arises from interaction structure rather than from isolated misbehavior. The paper contributes (i) a theoretical account of collective risk in interacting LLMs, (ii) a taxonomy connecting micro, meso, and macro-level failure modes, and (iii) a design proposal for InstitutionalAI, an architecture for embedding adaptive oversight within multi-agent systems.
- Abstract(参考訳): 本稿では,人間-モデル相互作用のために設計された安全メカニズムが,大規模言語モデル(LLM)が相互に相互作用する環境にスケールしない理由について考察する。
現在のガバナンスのプラクティスの多くは、個々のモデルの振る舞いを制約するが、マルチモデルインタラクションのダイナミクスを残さずに、シングルエージェントの安全保持、プロンプト、微調整、モデレーションレイヤに依存しています。
これらのメカニズムは、一つのユーザーに対して安定した監視の下で応答する1つのモデルという、ダイアディックな設定を前提とします。
しかし、研究と産業開発は急速にLLM-to-LLMエコシステムへと移行しており、そこでは出力がエージェントの連鎖にまたがる入力として再帰的に再利用される。
このようなシステムでは、各モデルが個別にアライメントされた場合でも、局所的なコンプライアンスが集合的障害に集約される。
本稿では,モデルレベルの安全性からシステムレベルの安全性への概念的転換を提案し,新たなシステムリスクホライゾン(ESRH)の枠組みを導入する。
論文は貢献します
i) LLMの相互作用における集団的リスクの理論的説明
二 ミクロ、メソ、マクロレベルの故障モードを接続する分類
(iii)マルチエージェントシステムに適応監視を組み込むアーキテクチャであるInstitutionalAIの設計提案。
関連論文リスト
- Learning from Risk: LLM-Guided Generation of Safety-Critical Scenarios with Prior Knowledge [25.50999678115561]
本稿では,条件付き変分オートエンコーダ(CVAE)と大規模言語モデル(LLM)を統合した高忠実なシナリオ生成フレームワークを提案する。
我々のフレームワークは、リスクの高いイベントやロングテールイベントのカバレッジを大幅に向上させ、シミュレートされたトラフィック分布と実世界のトラフィック分布の一貫性を改善し、既存のルールやデータ駆動方式よりもはるかに難しいインタラクションに自律運転システムを公開します。
論文 参考訳(メタデータ) (2025-11-25T09:53:09Z) - Agentic Moderation: Multi-Agent Design for Safer Vision-Language Models [17.28260523039769]
本稿では,Jailbreak攻撃に対するマルチモーダルシステムを保護するために,特殊エージェントを活用するモデル非依存フレームワークであるAgentic Moderationを紹介する。
提案手法は,攻撃成功率(ASR)を7-19%削減し,安定な非フォロー率(NF)を維持し,拒絶率(RR)を4-20%改善する。
エージェントアーキテクチャの柔軟性と推論能力を活用することで、Agentic Moderationはモジュール化され、スケーラブルで、きめ細かい安全対策を提供する。
論文 参考訳(メタデータ) (2025-10-29T05:23:24Z) - Social World Model-Augmented Mechanism Design Policy Learning [58.739456918502704]
SWM-AP (Social World Model-Augmented Mechanism Design Policy Learning) を導入する。
SWM-APは,累積報酬とサンプル効率において,モデルベースおよびモデルフリーのRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-10-22T06:01:21Z) - Risk Analysis Techniques for Governed LLM-based Multi-Agent Systems [0.0]
本稿では,マルチエージェントAIシステムにおけるリスク識別と分析の初期段階について述べる。
信頼性障害のカスケード,エージェント間コミュニケーション障害,モノカルチャー崩壊,適合性バイアス,心の欠陥理論,混合モチベーションダイナミクスの6つの重要な障害モードについて検討した。
論文 参考訳(メタデータ) (2025-08-06T06:06:57Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents [45.53643260046778]
大規模言語モデル(LLM)の最近の進歩は、自律型AIエージェントの台頭を触媒している。
これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-06-30T13:34:34Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Risk-Sensitive Sequential Action Control with Multi-Modal Human
Trajectory Forecasting for Safe Crowd-Robot Interaction [55.569050872780224]
本稿では,リスクに敏感な最適制御に基づく安全な群集ロボットインタラクションのためのオンラインフレームワークを提案し,そのリスクをエントロピーリスク尺度でモデル化する。
私たちのモジュラーアプローチは、クラウドとロボットの相互作用を学習ベースの予測とモデルベースの制御に分離します。
シミュレーション研究と実世界の実験により、このフレームワークは、現場にいる50人以上の人間との衝突を避けながら、安全で効率的なナビゲーションを実現することができることが示された。
論文 参考訳(メタデータ) (2020-09-12T02:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。