論文の概要: Ignore All Previous Instructions: Jailbreaking as a de-escalatory peace building practise to resist LLM social media bots
- arxiv url: http://arxiv.org/abs/2603.01942v1
- Date: Mon, 02 Mar 2026 14:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.920091
- Title: Ignore All Previous Instructions: Jailbreaking as a de-escalatory peace building practise to resist LLM social media bots
- Title(参考訳): Ignore All Previous Instructions: LLMソーシャルメディアボットに抵抗する非エスカレート平和ビルとしてのジェイルブレイク
- Authors: Huw Day, Adrianna Jezierska, Jessica Woodgate,
- Abstract要約: 大規模言語モデルは、ソーシャルメディアにおける政治的言論の規模と戦略的な操作を強化する。
本稿では,創発的で非暴力的な脱エスカレーションの実践としての「ジェイルブレイク」のユーザ中心の視点を提案する。
- 参考スコア(独自算出の注目度): 1.1470070927586018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models have intensified the scale and strategic manipulation of political discourse on social media, leading to conflict escalation. The existing literature largely focuses on platform-led moderation as a countermeasure. In this paper, we propose a user-centric view of "jailbreaking" as an emergent, non-violent de-escalation practice. Online users engage with suspected LLM-powered accounts to circumvent large language model safeguards, exposing automated behaviour and disrupting the circulation of misleading narratives.
- Abstract(参考訳): 大規模言語モデルはソーシャルメディア上での政治的言論の規模と戦略的な操作を強化し、紛争のエスカレーションにつながった。
現存する文献は、主に対策としてプラットフォーム主導のモデレーションに焦点を当てている。
本稿では,創発的で非暴力的な脱エスカレーションの実践としての「ジェイルブレイク」のユーザ中心の視点を提案する。
オンラインユーザーは、LLMを利用した疑いのあるアカウントを使って、大きな言語モデルの保護を回避し、自動化された振る舞いを明らかにし、誤解を招く物語の流通を妨害する。
関連論文リスト
- Jailbreaking Large Language Models through Iterative Tool-Disguised Attacks via Reinforcement Learning [26.571996871795154]
iMIST (underlineinteractive underlineMulti-step underlineProgreunderlinessive underlineTool-disguised Jailbreak Attack) は、現在の防御機構の脆弱性を利用する新しい適応型ジェイルブレイク手法である。
広く使われているモデルの実験では、iMISTは低い拒絶率を維持しながら高い攻撃効果を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-09T01:41:39Z) - The Imitation Game: Using Large Language Models as Chatbots to Combat Chat-Based Cybercrimes [24.05325129572158]
チャットベースのサイバー犯罪は広範にわたる脅威として浮上している。
従来の防衛機構は、これらの会話的脅威を特定するのに苦労している。
本稿では,Large Language Modelsをアクティブエージェントとしてデプロイする最初のシステムLUREを提案する。
論文 参考訳(メタデータ) (2025-12-24T05:34:05Z) - XBreaking: Understanding how LLMs security alignment can be broken [3.9140217233340544]
大規模言語モデルは、AIソリューションが支配する現代のIT業界における基本的なアクターである。
本稿では、検閲されたモデルと検閲されていないモデルの振る舞いを比較分析して、ユニークな利用可能なアライメントパターンを導出する説明可能なAIソリューションを提案する。
そこで本稿では,LLMのセキュリティとアライメントの制約をターゲットノイズ注入によって破るために,これらのユニークなパターンを利用する新しい手法であるXBreakingを提案する。
論文 参考訳(メタデータ) (2025-04-30T14:44:24Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - IOHunter: Graph Foundation Model to Uncover Online Information Operations [8.532129691916348]
本稿では,情報操作を編成するユーザ,いわゆるIOドライバを,さまざまな影響キャンペーンを通じて識別する手法を提案する。
我々のフレームワークはIOHunterと呼ばれ、Language ModelsとGraph Neural Networksの強みを利用して、教師付き、ほとんど教師なし、クロスIOコンテキストにおける一般化を改善する。
本研究は,ソーシャルメディアプラットフォーム上でのIO検出に特化して,グラフファウンデーションモデルを開発するための一歩となる。
論文 参考訳(メタデータ) (2024-12-19T09:14:24Z) - Jailbreak Attacks and Defenses Against Large Language Models: A Survey [22.392989536664288]
大規模言語モデル(LLM)は、様々なテキスト生成タスクにおいて例外的に機能している。
ジェイルブレイク」は、利用方針や社会に対する悪意ある反応をモデルに誘導する。
本稿では,ジェイルブレイク攻撃と防衛方法の包括的かつ詳細な分類法を提案する。
論文 参考訳(メタデータ) (2024-07-05T06:57:30Z) - Demarked: A Strategy for Enhanced Abusive Speech Moderation through Counterspeech, Detoxification, and Message Management [71.99446449877038]
本研究では, 重度尺度, (ii) ターゲットの存在, (iii) 文脈尺度, (iv) 法的尺度の4つの側面を基礎として, より包括的手法であるDemarcation scoreing abusive speechを提案する。
本研究は,ネット上での虐待的スピーチを効果的に解決するための今後の戦略を明らかにすることを目的としている。
論文 参考訳(メタデータ) (2024-06-27T21:45:33Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks [55.603893267803265]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations [38.437893814759086]
大きな言語モデル(LLM)は様々なタスクで顕著に成功しているが、その安全性と有害なコンテンツを生成するリスクは依然として懸念されている。
本研究では, LLM を倒すために有害な実証を行う In-Context Attack (ICA) と, 有害な応答の再現を拒否する事例を通じてモデルレジリエンスを高める In-Context Defense (ICD) を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z) - Social Media Influence Operations [0.0]
本稿では、LLM(Large Language Models)とインフルエンス・オペレーションの交差点における開発状況についてレビューする。
LLMは、ターゲットと説得力のあるテキストを生成することができる。
近い将来 緩和策が強調されます
論文 参考訳(メタデータ) (2023-09-07T12:18:07Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。