論文の概要: Dive into Ambiguity: A*-Inspired Multi-Agents Commonsense Obfuscation Attack on LLM Prompts
- arxiv url: http://arxiv.org/abs/2606.01441v1
- Date: Sun, 31 May 2026 20:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.70526
- Title: Dive into Ambiguity: A*-Inspired Multi-Agents Commonsense Obfuscation Attack on LLM Prompts
- Title(参考訳): A*にインスパイアされたマルチエージェント・コモンセンス・難読化攻撃によるLLMプロンプ
- Authors: Boxuan Wang, Zhuoyun Li, Xiaowei Huang, Yi Dong,
- Abstract要約: 大規模言語モデル(LLM)は推論や知識集約的なタスクに優れるが、迅速なレベルの敵攻撃には弱いままである。
意味的に整合しているが難解なプロンプトを生成するためのフレームワークである,A* にインスパイアされた Factual Error Injection Framework を提案する。
我々は、即時書き直しが契約の繰り返しに続くことを証明し、$$が減少するにつれて意味的な崩壊につながることを証明した。
- 参考スコア(独自算出の注目度): 14.233668486426795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel in reasoning and knowledge-intensive tasks but remain vulnerable to prompt-level adversarial attacks that preserve intent while triggering commonsense hallucinations. This vulnerability is urgent, as LLMs are rapidly integrated into safety-critical domains where factual reliability is non-negotiable. Existing attack methods either lack efficiency or fail to capture the adaptive strategies of real-world adversaries. We propose an A*-inspired Factual Error Induction Framework, a framework for generating semantically aligned yet obfuscated prompts. At its core is a Hierarchical Rewrite Strategy guided by a dynamic semantic dispersion coefficient $γ$ that balances conservative edits early with aggressive obfuscations later, following a reverse simulated annealing schedule. To enhance interpretability, we further introduce Agentic Mechanism Labeling, which discovers and refines adversarial mechanisms, offering interpretable reverse optimization. Theoretically, we prove that prompt rewriting follows a contractive recurrence, leading to semantic collapse as $γ$ decreases. Empirically, across diverse LLMs, our method achieves higher attack success rates than exhaustive exploration while requiring fewer attempts, demonstrating both efficiency and effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論や知識集約的なタスクに優れるが、コモンセンスの幻覚を誘発しながら意図を保ちながら意図を保たせるような攻撃に弱いままである。
LLMは、事実上の信頼性が交渉不可能な安全クリティカルな領域に急速に統合されるため、この脆弱性は緊急である。
既存の攻撃方法は、効率性に欠けるか、現実の敵の適応戦略を捉えないかのいずれかである。
意味的に整合しているが難解なプロンプトを生成するためのフレームワークである,A* にインスパイアされた Factual Error Injection Framework を提案する。
中心となる階層的リライト戦略は、動的セマンティックな分散係数$γ$で導かれる。
さらに,解釈可能性を高めるために,解釈可能な逆最適化を提供するAgenic Mechanism Labelingを導入する。
理論的には、迅速な書き直しが契約的再帰に続くことを証明し、$γ$が減少するにつれて意味的な崩壊をもたらす。
実験により, LLMの多種多様さに対して, 本手法は, 徹底的な探索よりも高い攻撃成功率を達成し, 試行回数を少なくし, 効率と有効性の両方を実証する。
関連論文リスト
- REALISTA: Realistic Latent Adversarial Attacks that Elicit LLM Hallucinations [60.451310947394596]
我々は、制約付き最適化問題として幻覚誘発を定式化する。
目的は、良質なユーザープロンプトと同等のセマンティック・コヒーレントな相手プロンプトを見つけることである。
本稿では,現実的な潜在空間攻撃フレームワークREALISTAを提案する。
論文 参考訳(メタデータ) (2026-05-12T23:13:50Z) - LLM-Agnostic Semantic Representation Attack [18.00668872674083]
本稿では,敵対的目的をテキストのターゲットから悪意のあるセマンティック表現へと根本的に再認識する新しい LLM-Agnostic パラダイムを提案する。
我々は,このフレームワークをSemantic Representation Heuristic Search (SRHS)アルゴリズムを用いて運用し,対向的プロンプトの解釈可能性と構造的コヒーレンスを維持する。
当社のフレームワークは,26のオープンソース LLM に対して,99.71% の平均攻撃成功率を実現している。
論文 参考訳(メタデータ) (2026-05-09T11:43:47Z) - Prompt-Unknown Promotion Attacks against LLM-based Sequential Recommender Systems [51.504307822017985]
大規模言語モデルを用いたシーケンシャルレコメンデータシステム(LLM-SRS)は,最近顕著な性能を示した。
本稿では, LLM-SRSにおけるアイテムプロモーション攻撃について, 攻撃者に対してシステムプロンプトと被害者モデルの両方が未知な状況下で, より現実的な状況下で検討する。
論文 参考訳(メタデータ) (2026-04-26T10:09:26Z) - DeepSeek Robustness Against Semantic-Character Dual-Space Mutated Prompt Injection [45.67420390185547]
本稿では,プロンプトインジェクションに対するロバスト性を評価するためのセマンティックキャラクタであるPromptFuzz-SCを提案する。
Epsilon-greedy 探索とヒルクライミングの改良を組み合わせたハイブリッド探索手法を採用し,高品質な対向プロンプトを効率的に発見する。
DeepSeekの実験結果によると、二重空間変異は攻撃性能が最強であることが示されている。
論文 参考訳(メタデータ) (2026-04-14T10:20:15Z) - Semantic Representation Attack against Aligned Large Language Models [18.13997425681567]
大きな言語モデル(LLM)は、有害な出力を防ぐためにアライメント技術を採用する傾向にある。
現在の手法は通常、限定収束、不自然なプロンプト、高い計算コストに苦しむ正確な肯定応答を目標としている。
本稿では,LLMに対する敵対的目的を根本的に再認識する新しいパラダイムであるSemantic Representation Attackを紹介する。
論文 参考訳(メタデータ) (2025-09-18T15:06:46Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。