論文の概要: Thought Virus: Viral Misalignment via Subliminal Prompting in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2603.00131v1
- Date: Mon, 23 Feb 2026 13:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.042572
- Title: Thought Virus: Viral Misalignment via Subliminal Prompting in Multi-Agent Systems
- Title(参考訳): 思考ウイルス:マルチエージェントシステムにおけるサブリミナルプロンプティングによるウイルスの相違
- Authors: Moritz Weckbecker, Jonas Müller, Ben Hagag, Michael Mulet,
- Abstract要約: サブリミナル・プロンプト(Subliminal prompting)とは、意味的に無関係なトークンによるプロンプトを通じて、言語モデルが特定の概念や特徴に偏っている現象である。
1つのサブリミナルに誘導されるエージェントが、ネットワーク全体に弱みはあるが持続するバイアスを拡大できることを示す。
以上の結果から,サブリミナルプロンプトはマルチエージェントセキュリティにおいて新たなアタックベクターを導入し,このようなシステムのアライメントに寄与することが示唆された。
- 参考スコア(独自算出の注目度): 1.641189223782504
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Subliminal prompting is a phenomenon in which language models are biased towards certain concepts or traits through prompting with semantically unrelated tokens. While prior work has examined subliminal prompting in user-LLM interactions, potential bias transfer in multi-agent systems and its associated security implications remain unexplored. In this work, we show that a single subliminally prompted agent can spread a weakening but persisting bias throughout its entire network. We measure this phenomenon across 6 agents using two different topologies, observing that the transferred concept maintains an elevated response rate throughout the network. To exemplify potential misalignment risks, we assess network performance on multiple-choice TruthfulQA, showing that subliminal prompting of a single agent may degrade the truthfulness of other agents. Our findings reveal that subliminal prompting introduces a new attack vector in multi-agent security, with implications for the alignment of such systems. The implementation of all experiments is publicly available at https://github.com/Multi-Agent-Security-Initiative/thought_virus .
- Abstract(参考訳): サブリミナル・プロンプト(Subliminal prompting)とは、意味的に無関係なトークンによるプロンプトを通じて、言語モデルが特定の概念や特徴に偏っている現象である。
ユーザとLLMのインタラクションにおいてサブリミナルなプロンプトが検討されてきたが、マルチエージェントシステムにおける潜在的なバイアス伝達とその関連するセキュリティへの影響は未解明のままである。
本研究では,1つのサブリミナルに誘導されるエージェントがネットワーク全体に弱みはあるが持続するバイアスを拡散できることを示す。
我々はこの現象を2つの異なるトポロジを用いて6つのエージェントにわたって測定し、転送された概念がネットワーク全体にわたって高い応答率を維持することを観察した。
潜在的なミスアライメントリスクを実証するために,複数選択のTrathfulQA上でのネットワーク性能を評価し,一つのエージェントのサブリミナルプロンプトが他のエージェントの真偽を劣化させる可能性があることを示す。
以上の結果から,サブリミナルプロンプトはマルチエージェントセキュリティにおいて新たなアタックベクターを導入し,このようなシステムのアライメントに寄与することが示唆された。
すべての実験の実装はhttps://github.com/Multi-Agent-Security-Initiative/ Thought_virusで公開されている。
関連論文リスト
- OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - Toward Trustworthy Agentic AI: A Multimodal Framework for Preventing Prompt Injection Attacks [0.0]
本稿ではエージェントAIシステムのためのクロスエージェントマルチモーダル・プロベナンク・アウェアディフェンス・フレームワークを提案する。
フレームワークには、テキストサニタイザエージェント、ビジュアルサニタイザエージェント、および出力バリデータエージェントが含まれており、いずれも前駆体台帳によって調整されている。
実験の結果,マルチモーダル噴射検出精度は著しく向上し,クロスエージェント信頼リークを最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-12-29T15:54:33Z) - InterAgent: Physics-based Multi-agent Command Execution via Diffusion on Interaction Graphs [72.5651722107621]
InterAgentはテキスト駆動型物理ベースのマルチエージェントヒューマノイド制御のためのエンドツーエンドフレームワークである。
本稿では,マルチストリームブロックを備えた自己回帰拡散トランスフォーマーを提案する。
また,空間依存性の微粒化を明示的に捉えた対話グラフのエクスセプション表現を提案する。
論文 参考訳(メタデータ) (2025-12-08T10:46:01Z) - Exposing Weak Links in Multi-Agent Systems under Adversarial Prompting [5.544819942438653]
本稿では,マルチエージェントシステムのセキュリティ評価を行うフレームワークであるSafeAgentsを提案する。
広く採用されている5つのマルチエージェントアーキテクチャについて検討する。
この結果から,一般的なデザインパターンには重大な脆弱性があることが判明した。
論文 参考訳(メタデータ) (2025-11-14T04:22:49Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Kaleidoscopic Teaming in Multi Agent Simulations [75.47388708240042]
我々は,エージェントが行う複雑な行動,思考プロセス,行動の安全性リスクを評価する上で,既存のレッドチームや安全評価フレームワークは不十分であると主張している。
我々は,新しいコンテキスト内最適化手法を導入し,安全解析のためのより良いシナリオを生成する。
エージェントの安全性を測定するためのフレームワークとともに使用できる適切なメトリクスを提案する。
論文 参考訳(メタデータ) (2025-06-20T23:37:17Z) - PeerGuard: Defending Multi-Agent Systems Against Backdoor Attacks Through Mutual Reasoning [8.191214701984162]
マルチエージェントシステムは、複雑なタスクを完了させたり、協力したり、競合したりする自律エージェントとして、高度なAIモデルを活用する。
重要性は増しているが、マルチエージェントシステムの安全性はいまだに未調査である。
本研究では,マルチエージェントシステムにおけるバックドア脆弱性を調査し,エージェントインタラクションに基づく防御機構を提案する。
論文 参考訳(メタデータ) (2025-05-16T19:08:29Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。