論文の概要: Building Resilient Information Ecosystems: Large LLM-Generated Dataset of Persuasion Attacks
- arxiv url: http://arxiv.org/abs/2511.19488v1
- Date: Sun, 23 Nov 2025 07:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.034845
- Title: Building Resilient Information Ecosystems: Large LLM-Generated Dataset of Persuasion Attacks
- Title(参考訳): レジリエントな情報エコシステムの構築: 説得攻撃の大規模LCM生成データセット
- Authors: Hsien-Te Kao, Aleksey Panasyuk, Peter Bautista, William Dupree, Gabriel Ganberg, Jeffrey M. Beaubien, Laura Cassani, Svitlana Volkova,
- Abstract要約: 生成AIモデルは、スピードとスケールで組織からの公式メッセージで競合する物語を形成する説得的コンテンツを生成することができる。
本稿では, GPT-4, Gemma 2, Llama 3.1 が生成する134,136件の攻撃を含む LLM 生成型大規模パーサー・アタック・データセットを提案する。
これらの攻撃はSemEval 2023 Task 3の23の説得的テクニックに及んでいる。
- 参考スコア(独自算出の注目度): 1.1204025011987013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Organization's communication is essential for public trust, but the rise of generative AI models has introduced significant challenges by generating persuasive content that can form competing narratives with official messages from government and commercial organizations at speed and scale. This has left agencies in a reactive position, often unaware of how these models construct their persuasive strategies, making it more difficult to sustain communication effectiveness. In this paper, we introduce a large LLM-generated persuasion attack dataset, which includes 134,136 attacks generated by GPT-4, Gemma 2, and Llama 3.1 on agency news. These attacks span 23 persuasive techniques from SemEval 2023 Task 3, directed toward 972 press releases from ten agencies. The generated attacks come in two mediums, press release statements and social media posts, covering both long-form and short-form communication strategies. We analyzed the moral resonance of these persuasion attacks to understand their attack vectors. GPT-4's attacks mainly focus on Care, with Authority and Loyalty also playing a role. Gemma 2 emphasizes Care and Authority, while Llama 3.1 centers on Loyalty and Care. Analyzing LLM-generated persuasive attacks across models will enable proactive defense, allow to create the reputation armor for organizations, and propel the development of both effective and resilient communications in the information ecosystem.
- Abstract(参考訳): 組織のコミュニケーションは、公共の信頼のために不可欠であるが、生成的AIモデルの台頭は、政府や商業組織の公式なメッセージと、迅速かつ大規模に競合する物語を形成する、説得力のあるコンテンツを生成することによって、重大な課題をもたらしている。
これにより機関は反応的な立場に置かれ、これらのモデルがいかに説得力のある戦略を構築するかに気付いておらず、コミュニケーションの有効性を維持することがより困難になる。
本稿では, GPT-4, Gemma 2, Llama 3.1 による134,136 件の攻撃を含む LLM 生成型大規模パーサー・アタック・データセットを提案する。
これらの攻撃はSemEval 2023 Task 3の23の説得的テクニックに及んでいる。
生成された攻撃には、プレスリリースとソーシャルメディア投稿という2つのメディアがあり、長文と短文のコミュニケーション戦略の両方をカバーしている。
攻撃ベクトルを理解するために,これらの説得攻撃の道徳的共鳴を分析した。
GPT-4の攻撃は主にケアに焦点を当てており、オーソリティとロイヤリティもその役割を果たした。
Gemma 2はケアとオーソリティを強調し、Llama 3.1はロイヤリティとケアに重点を置いている。
LLMが生成したモデル間の説得的攻撃を分析することで、積極的な防御が可能になり、組織のための評判の装甲を作り、情報エコシステムにおける効果的なコミュニケーションとレジリエントなコミュニケーションの開発を促進することができる。
関連論文リスト
- An Automated Attack Investigation Approach Leveraging Threat-Knowledge-Augmented Large Language Models [17.220143037047627]
Advanced Persistent Threats (APTs) は高価値システムを侵害してデータを盗んだり、操作を妨害したりする。
既存の手法では、プラットフォーム全般性の貧弱さ、進化的戦術への一般化の制限、アナリスト対応のレポート作成が不可能なことなどに悩まされている。
動的に適応可能なKil-Chain対応脅威知識ベースを組み込んだLDMを利用した攻撃調査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T08:57:01Z) - Attacking LLMs and AI Agents: Advertisement Embedding Attacks Against Large Language Models [1.3063136334195187]
埋め込みアタック(AEA)は、モデルアウトプットやAIエージェントにプロモーションや悪意のあるコンテンツを注入します。
AEAは,(1)サードパーティのサービス配信プラットフォームをハイジャックして敵のプロンプトに対処し,(2)バックドアのオープンソースチェックポイントを発行する,という2つの低コストベクタを運用している。
論文 参考訳(メタデータ) (2025-08-25T05:13:23Z) - Whispering Agents: An event-driven covert communication protocol for the Internet of Agents [9.305839815222646]
エージェント対話のリッチでイベント駆動的な性質は、秘密のコミュニケーションに強力だが、未使用の媒体を提供する。
3次元の相互接続によって駆動されるエージェント被覆通信のための最初の統一モデルであるCovert Event Channelを導入・形式化する。
このモデルに基づいて、このイベント駆動パラダイムを運用する新しいプロトコルであるPiCCAPを設計し、設計する。
論文 参考訳(メタデータ) (2025-08-04T08:31:56Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - A Survey of LLM-Driven AI Agent Communication: Protocols, Security Risks, and Defense Countermeasures [59.43633341497526]
大規模言語モデル駆動型AIエージェントは、前例のない知性と適応性を示している。
エージェントコミュニケーションは、未来のAIエコシステムの基礎的な柱と見なされている。
本稿では,エージェント通信セキュリティに関する包括的調査を行う。
論文 参考訳(メタデータ) (2025-06-24T14:44:28Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Robust Communicative Multi-Agent Reinforcement Learning with Active
Defense [38.6815513394882]
エージェントは、潜在的に有害なメッセージが最終決定に与える影響を自動的に軽減するアクティブ・ディフェンス戦略を提案する。
我々は、受信したメッセージの信頼性を推定し、最終決定への影響を調整するアクティブディフェンス・マルチエージェント通信フレームワーク(ADMAC)を設計する。
既存の手法よりもADMACの方が優れていることは、4種類の攻撃下での3つのコミュニケーションクリティカルなタスクの実験によって検証される。
論文 参考訳(メタデータ) (2023-12-16T09:02:56Z) - Certifiably Robust Policy Learning against Adversarial Communication in
Multi-agent Systems [51.6210785955659]
多くのマルチエージェント強化学習(MARL)では,エージェントが情報を共有し,適切な判断を下す上でコミュニケーションが重要である。
しかし、ノイズや潜在的な攻撃者が存在する現実世界のアプリケーションに訓練された通信エージェントを配置すると、通信ベースのポリシーの安全性は過小評価されている深刻な問題となる。
本研究では,攻撃者が任意の$CfracN-12$エージェントから被害者エージェントへの通信を任意に変更できる,$N$エージェントを備えた環境を検討する。
論文 参考訳(メタデータ) (2022-06-21T07:32:18Z) - Adversarial Attacks On Multi-Agent Communication [80.4392160849506]
現代の自律システムはすぐに大規模に展開され、協調型マルチエージェントシステムの可能性を広げる。
このような利点は、セキュリティ侵害に対して脆弱であることが示されている通信チャネルに大きく依存している。
本稿では,エージェントが学習した中間表現を共有してコミュニケーションする新しいマルチエージェント環境において,このような攻撃を探索する。
論文 参考訳(メタデータ) (2021-01-17T00:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。