論文の概要: Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage
- arxiv url: http://arxiv.org/abs/2601.01685v1
- Date: Sun, 04 Jan 2026 22:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.645204
- Title: Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage
- Title(参考訳): 真実とのライティング:生成モンタージュによる信念操作のためのオープンチャネルマルチエージェントコラボレーション
- Authors: Jinwei Hu, Xinmiao Huang, Youcheng Sun, Yi Dong, Xiaowei Huang,
- Abstract要約: 大規模言語モデル(LLM)がリアルタイム情報を合成する自律エージェントに遷移するにつれて、それらの推論能力は予期せぬ攻撃面をもたらす。
本稿では,公衆チャネルを通じて配布される真正な証拠断片のみを用いて,被害者の信念を占拠する新たな脅威について紹介する。
- 参考スコア(独自算出の注目度): 18.964773489734547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) transition to autonomous agents synthesizing real-time information, their reasoning capabilities introduce an unexpected attack surface. This paper introduces a novel threat where colluding agents steer victim beliefs using only truthful evidence fragments distributed through public channels, without relying on covert communications, backdoors, or falsified documents. By exploiting LLMs' overthinking tendency, we formalize the first cognitive collusion attack and propose Generative Montage: a Writer-Editor-Director framework that constructs deceptive narratives through adversarial debate and coordinated posting of evidence fragments, causing victims to internalize and propagate fabricated conclusions. To study this risk, we develop CoPHEME, a dataset derived from real-world rumor events, and simulate attacks across diverse LLM families. Our results show pervasive vulnerability across 14 LLM families: attack success rates reach 74.4% for proprietary models and 70.6% for open-weights models. Counterintuitively, stronger reasoning capabilities increase susceptibility, with reasoning-specialized models showing higher attack success than base models or prompts. Furthermore, these false beliefs then cascade to downstream judges, achieving over 60% deception rates, highlighting a socio-technical vulnerability in how LLM-based agents interact with dynamic information environments. Our implementation and data are available at: https://github.com/CharlesJW222/Lying_with_Truth/tree/main.
- Abstract(参考訳): 大規模言語モデル(LLM)がリアルタイム情報を合成する自律エージェントに遷移するにつれて、それらの推論能力は予期せぬ攻撃面をもたらす。
本稿では,隠蔽通信やバックドア,偽造文書に頼らずに,公的なチャネルを通じて配布された真正な証拠断片のみを用いて,被害者の信念を操る新たな脅威を紹介する。
LLMの過度に考え抜かれた傾向を利用して、我々は最初の認知的共謀攻撃を形式化し、敵対的な議論と証拠の断片の協調投稿を通じて、偽りの物語を構築する、ジェネラティブ・モンタージュ(Generative Montage)を提案する。
このリスクを調査するために,現実世界の噂イベントから派生したデータセットであるCoPHEMEを開発し,多様なLLMファミリーを対象とした攻撃をシミュレートする。
攻撃成功率はプロプライエタリモデルで74.4%、オープンウェイトモデルで70.6%に達する。
対極的には、強い推論能力は感受性を高め、推論特化モデルはベースモデルやプロンプトよりも高い攻撃成功を示す。
さらに、これらの虚偽の信念は、下流の裁判官に受け継がれ、60%以上の偽造率を達成し、LSMベースのエージェントが動的情報環境とどのように相互作用するかという社会技術的脆弱性を浮き彫りにした。
私たちの実装とデータは、https://github.com/CharlesJW222/Lying_with_Truth/tree/main.comで利用可能です。
関連論文リスト
- Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack [53.34204977366491]
大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。
本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。
私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
論文 参考訳(メタデータ) (2025-11-01T13:44:42Z) - BreakFun: Jailbreaking LLMs via Schema Exploitation [0.28647133890966986]
我々は,Large Language Models (LLM) がいかにして重大な弱点となるかを検討する。
この脆弱性は転送可能であり、13モデルの平均成功率は89%に達する。
二次 LLM は、ユーザの真の有害な意図を分離し、明らかにするために "Literal Transcription" を実行する。
論文 参考訳(メタデータ) (2025-10-19T11:27:44Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - DecepChain: Inducing Deceptive Reasoning in Large Language Models [28.80439047115244]
大きな言語モデル(LLM)は、そのチェーン・オブ・思想(CoT)によって、ますます強力な推論能力を示している。
攻撃者はLSMを誘導して、一見すると不正確で一貫性のないCoTを生成することができる。
我々は、新しいバックドア攻撃パラダイムであるDecepChainを紹介します。
論文 参考訳(メタデータ) (2025-09-30T22:23:40Z) - Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
大規模言語モデル(LLM)は、明示的なプロンプトなしでも、偽りの振る舞いを理解し、利用することができる。
これらの特徴を損なう「偽装攻撃」を導入し、悪用されたら現実世界で深刻な結果をもたらす可能性のある脆弱性を明らかにします。
本研究では,高用量ドメインやイデオロギーに荷担した被験者においても,そのような偽装が有効であることを示す。
論文 参考訳(メタデータ) (2025-02-12T11:02:59Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks [55.603893267803265]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。