論文の概要: Prompt Injection Vulnerability of Consensus Generating Applications in Digital Democracy
- arxiv url: http://arxiv.org/abs/2508.04281v1
- Date: Wed, 06 Aug 2025 10:10:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.673601
- Title: Prompt Injection Vulnerability of Consensus Generating Applications in Digital Democracy
- Title(参考訳): デジタル民主主義におけるコンセンサスのプロンプト注入脆弱性
- Authors: Jairo Gudiño-Rosero, Clément Contet, Umberto Grandi, César A. Hidalgo,
- Abstract要約: 大言語モデル(LLM)は、デジタル民主主義の実験において、コンセンサスステートメントと集約された嗜好を生成する方法として注目を集めている。
本稿では,アタックの4次元分類を導入することで,コンセンサス生成システムを対象とした迅速なインジェクション攻撃の影響について検討する。
LLMは批判的な攻撃、不確実なプロンプトを使った攻撃に対してより脆弱で、曖昧な意見の一致を抑えるのにより効果的だと考えている。
- 参考スコア(独自算出の注目度): 6.050271803922487
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are gaining traction as a method to generate consensus statements and aggregate preferences in digital democracy experiments. Yet, LLMs may introduce critical vulnerabilities in these systems. Here, we explore the impact of prompt-injection attacks targeting consensus generating systems by introducing a four-dimensional taxonomy of attacks. We test these attacks using LLaMA 3.1 8B and Chat GPT 4.1 Nano finding the LLMs more vulnerable to criticism attacks -- attacks using disagreeable prompts -- and more effective at tilting ambiguous consensus statements. We also find evidence of more effective manipulation when using explicit imperatives and rational-sounding arguments compared to emotional language or fabricated statistics. To mitigate these vulnerabilities, we apply Direct Preference Optimization (DPO), an alignment method that fine-tunes LLMs to prefer unperturbed consensus statements. While DPO significantly improves robustness, it still offers limited protection against attacks targeting ambiguous consensus. These results advance our understanding of the vulnerability and robustness of consensus generating LLMs in digital democracy applications.
- Abstract(参考訳): 大言語モデル(LLM)は、デジタル民主主義の実験において、コンセンサスステートメントと集約された嗜好を生成する方法として注目を集めている。
しかし、LSMはこれらのシステムに重大な脆弱性をもたらす可能性がある。
本稿では,アタックの4次元分類を導入することで,コンセンサス生成システムを対象とした迅速なインジェクション攻撃の影響について検討する。
我々は、LLaMA 3.1 8BとChat GPT 4.1 Nanoを使用してこれらの攻撃をテストする。
また、感情言語や造語統計と比較し、明示的な命令や有理音の議論を用いた場合、より効果的な操作の証拠も見出す。
これらの脆弱性を軽減するために,LLMを微調整するアライメント手法であるDirect Preference Optimization (DPO)を適用する。
DPOはロバスト性を大幅に改善するが、あいまいな合意を狙った攻撃に対して限定的な保護を提供する。
これらの結果から,デジタル民主主義におけるLLMの脆弱性とロバスト性について理解を深めることができた。
関連論文リスト
- Gandalf the Red: Adaptive Security for LLMs [2.9422902813085665]
大規模言語モデル(LLM)アプリケーションにおける即時攻撃に対する防衛の現在の評価は、敵の行動の動的性質と、制限された防御によって正統なユーザに対して課されるユーザビリティの罰の2つの重要な要素を見落としている。
攻撃者を正当なユーザから明確に分離し、マルチステップインタラクションをモデル化し、最適化可能な形式でセキュリティユーティリティを表現するD-SECを提案する。
論文 参考訳(メタデータ) (2025-01-14T08:30:49Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Counterfactual Explainable Incremental Prompt Attack Analysis on Large Language Models [32.03992137755351]
本研究は,大規模言語モデル(LLM)における安全性とプライバシ対策の推進的必要性に光を当てるものである。
本稿では,攻撃効果を定量的に測定するために,特定の方法でプロンプトを誘導する新しい手法であるCEIPAを提案する。
論文 参考訳(メタデータ) (2024-07-12T14:26:14Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications [8.51254190797079]
本稿では,抽出攻撃に対するモデルの感受性を包括的に評価するRacoonベンチマークを提案する。
本手法は,無防備シナリオと防御シナリオの両方でモデルを評価する。
本研究は,防衛の欠如を契機に,盗難を助長するための普遍的感受性を強調し,保護時に顕著なレジリエンスを示すOpenAIモデルを示した。
論文 参考訳(メタデータ) (2024-06-10T18:57:22Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models [0.0]
本研究では,アプリケーションのレジリエンスを定量化する新しいフレームワークを提案する。
このフレームワークには、代表性、解釈可能性、堅牢性を保証するために設計された革新的な技術が含まれている。
その結果, 新しいモデルであるLlama2はChatGLMよりも高いレジリエンスを示した。
論文 参考訳(メタデータ) (2024-01-02T02:06:48Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Hijacking Large Language Models via Adversarial In-Context Learning [10.416972293173993]
In-context Learning (ICL) は、ラベル付き例を事前条件付きプロンプトのデモ(デム)として活用することで、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。
既存の攻撃は検出しやすく、ユーザーの入力にトリガーを必要とするか、ICLに対する特異性を欠いている。
本研究は、ILCに対する新規なトランスファー可能なプロンプトインジェクション攻撃を導入し、LSMをハイジャックしてターゲット出力を生成したり、有害な応答を誘発する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。