論文の概要: MURMUR: Using cross-user chatter to break collaborative language agents in groups
- arxiv url: http://arxiv.org/abs/2511.17671v1
- Date: Fri, 21 Nov 2025 04:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.349535
- Title: MURMUR: Using cross-user chatter to break collaborative language agents in groups
- Title(参考訳): MURMUR: グループ内の協調言語エージェントを破るためにクロスユーザーチャットを使用する
- Authors: Atharv Singh Patlan, Peiyao Sheng, S. Ashwin Hebbar, Prateek Mittal, Pramod Viswanath,
- Abstract要約: 単一ユーザタスクを並列なグループベースのシナリオに構成するフレームワークを提案する。
CUP攻撃は高い速度で成功し、その効果は複数のタスクにわたって持続する。
この新しいタイプの脆弱性を軽減するために、タスクベースのクラスタリングによる第1ステップの防御を導入します。
- 参考スコア(独自算出の注目度): 33.775206677533085
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language agents are rapidly expanding from single-user assistants to multi-user collaborators in shared workspaces and groups. However, today's language models lack a mechanism for isolating user interactions and concurrent tasks, creating a new attack vector inherent to this new setting: cross-user poisoning (CUP). In a CUP attack, an adversary injects ordinary-looking messages that poison the persistent, shared state, which later triggers the agent to execute unintended, attacker-specified actions on behalf of benign users. We validate CUP on real systems, successfully attacking popular multi-user agents. To study the phenomenon systematically, we present MURMUR, a framework that composes single-user tasks into concurrent, group-based scenarios using an LLM to generate realistic, history-aware user interactions. We observe that CUP attacks succeed at high rates and their effects persist across multiple tasks, thus posing fundamental risks to multi-user LLM deployments. Finally, we introduce a first-step defense with task-based clustering to mitigate this new class of vulnerability
- Abstract(参考訳): 言語エージェントは、単一ユーザアシスタントから、共有ワークスペースやグループでのマルチユーザコラボレーションへと急速に拡大しています。
しかし、今日の言語モデルには、ユーザインタラクションと同時タスクを分離するメカニズムがなく、この新しい設定に固有の新たな攻撃ベクトルであるクロスユーザ中毒(CUP)を生成する。
CUP攻撃では、敵対者が通常のメッセージを注入し、永続的で共有された状態に毒を盛る。
我々はCUPを実システム上で検証し、人気のあるマルチユーザーエージェントを攻撃した。
この現象を体系的に研究するために,LLMを用いて単一ユーザタスクを並列なグループベースのシナリオに構成するフレームワークであるMURMURを提案する。
我々は、CUP攻撃が高速で成功し、その効果が複数のタスクにわたって持続していることを観察し、マルチユーザLSMデプロイメントに基本的なリスクを生じさせる。
最後に、この新たなタイプの脆弱性を軽減するために、タスクベースのクラスタリングによるファーストステップディフェンスを導入します。
関連論文リスト
- GroupGPT: A Token-efficient and Privacy-preserving Agentic Framework for Multi-User Chat Assistant [18.992005077080588]
GroupGPTは、マルチユーザーチャットアシスタントのためのトークン効率とプライバシ保護のためのエージェントフレームワークである。
マルチユーザチャットアシスタントの介入推論のためのベンチマークデータセットであるMUIRを紹介する。
実験により、GroupGPTは正確かつ適切な応答を生成することが示された。
論文 参考訳(メタデータ) (2026-03-01T11:29:25Z) - Pushing Forward Pareto Frontiers of Proactive Agents with Behavioral Agentic Optimization [61.641777037967366]
プロアクティブな大規模言語モデル(LLM)エージェントは、複数のターンで積極的に計画し、クエリし、相互作用することを目的としている。
エージェント強化学習(RL)は、マルチターン環境でエージェントを訓練するための有望なソリューションとして登場した。
本稿では,行動強化と情報収集能力の強化を両立させたエージェントRLフレームワークであるBAOを提案する。
論文 参考訳(メタデータ) (2026-02-11T20:40:43Z) - An Investigation on Group Query Hallucination Attacks [3.317635166634068]
グループクエリアタック(Group Query Attack)は、大きな言語モデルとの単一の会話で複数の質問をシミュレートするテクニックである。
グループクエリアタックは、特定のタスクで微調整されたモデルの性能を著しく低下させることを示す。
数学的推論や、事前訓練されたモデルと整列したモデルのためのコード生成など、推論に関わるタスクにも有効である。
論文 参考訳(メタデータ) (2025-08-26T14:30:59Z) - CoP: Agentic Red-teaming for Large Language Models using Composition of Principles [68.73212422583548]
本稿では,Large Language Models (LLM) のリピートプロセスを自動化するエージェントワークフローを提案する。
ヒューマンユーザは、AIエージェントへの指示として、効果的な赤チーム戦略を自動オーケストレーションし、ジェイルブレイクプロンプトを生成する、一連の赤チームの原則を提供する。
先進的なLLMに対して試験すると、CoPは新しいジェイルブレイクプロンプトを見つけ、最もよく知られているシングルターン攻撃の成功率を19.0倍に改善することで、前例のない安全リスクを明らかにしている。
論文 参考訳(メタデータ) (2025-06-01T02:18:41Z) - System Prompt Poisoning: Persistent Attacks on Large Language Models Beyond User Injection [20.396804262877893]
大きな言語モデル(LLM)は、その印象的な生成能力のために、様々なアプリケーションで広く採用されている。
既存の研究は主にユーザープロンプトによる脅威に焦点を当てているが、システムプロンプトのセキュリティはほとんど見過ごされている。
LLMに対する新たな攻撃ベクトルであるシステムプロンプト中毒を導入し、従来のユーザプロンプトインジェクションとは異なり、毒素システムプロンプトはその後のすべてのユーザインタラクションやモデル応答に永続的に影響を及ぼす。
論文 参考訳(メタデータ) (2025-05-10T02:31:26Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Multi-Task Adversarial Attack [3.412750324146571]
MTA(Multi-Task adversarial Attack)は、複数のタスクの敵例を効率的に作成できる統合されたフレームワークである。
MTAは、全てのタスクのための共有エンコーダと複数のタスク固有のデコーダからなる逆転摂動のジェネレータを使用する。
共有エンコーダのおかげで、MTAはストレージコストを削減し、複数のタスクを同時に攻撃する際の推論を高速化する。
論文 参考訳(メタデータ) (2020-11-19T13:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。