論文の概要: REALISTA: Realistic Latent Adversarial Attacks that Elicit LLM Hallucinations
- arxiv url: http://arxiv.org/abs/2605.12813v1
- Date: Tue, 12 May 2026 23:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.722066
- Title: REALISTA: Realistic Latent Adversarial Attacks that Elicit LLM Hallucinations
- Title(参考訳): REALISTA: LLMの幻覚を消した現実的な潜在敵攻撃
- Authors: Buyun Liang, Jinqi Luo, Liangzu Peng, Kwan Ho Ryan Chan, Darshan Thaker, Kaleab A. Kinfu, Fengrui Tian, Hamed Hassani, René Vidal,
- Abstract要約: 我々は、制約付き最適化問題として幻覚誘発を定式化する。
目的は、良質なユーザープロンプトと同等のセマンティック・コヒーレントな相手プロンプトを見つけることである。
本稿では,現実的な潜在空間攻撃フレームワークREALISTAを提案する。
- 参考スコア(独自算出の注目度): 60.451310947394596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve strong performance across many tasks but remain vulnerable to hallucinations, motivating the need for realistic adversarial prompts that elicit such failures. We formulate hallucination elicitation as a constrained optimization problem, where the goal is to find semantically coherent adversarial prompts that are equivalent to benign user prompts. Existing methods remain limited: discrete prompt-based attacks preserve semantic equivalence and coherence but search only over a limited set of prompt variations, while continuous latent-space attacks explore a richer space but often decode into prompts that are no longer valid rephrasings. To address these limitations, we propose REALISTA, a realistic latent-space attack framework. REALISTA constructs an input-dependent dictionary of valid editing directions, each corresponding to a semantically equivalent and coherent rephrasing, and optimizes continuous combinations of these directions in latent space. This design combines the optimization flexibility of continuous attacks with the semantic realism of discrete rephrasing-based attacks. Experiments demonstrate that REALISTA achieves superior or comparable performance to state-of-the-art realistic attacks on open-source LLMs and, crucially, succeeds in attacking large reasoning models under free-form response settings, where prior realistic attacks fail. Code is available at https://github.com/Buyun-Liang/REALISTA.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのタスクにわたって高いパフォーマンスを達成するが、幻覚に弱いままであり、そのような失敗を引き起こす現実的な敵のプロンプトの必要性を動機付けている。
そこでは,制約付き最適化問題として幻覚誘発を定式化し,その目的は,良心的ユーザプロンプトと等価な意味的コヒーレントな敵対的プロンプトを見つけることである。
離散的なプロンプトベースのアタックは意味的同値性とコヒーレンスを保持するが、限定されたプロンプトのバリエーションのみを探索する一方、連続的なラテントスペースアタックはよりリッチな空間を探索するが、しばしばもはや有効なリフレクションではないプロンプトにデコードされる。
これらの制約に対処するため,現実的な潜在空間攻撃フレームワークであるREALISTAを提案する。
REALISTAは、意味論的に等価でコヒーレントな表現に対応する、有効な編集方向の入力依存辞書を構築し、遅延空間におけるこれらの方向の連続的な組み合わせを最適化する。
この設計は、連続攻撃の最適化の柔軟性と離散的言い換えに基づく攻撃のセマンティックリアリズムを組み合わせたものである。
実験により、REALISTAはオープンソースのLLMに対する最先端のリアルアタックよりも優れた、あるいは同等のパフォーマンスを達成し、重要なことは、以前のリアルアタックが失敗するフリーフォームのレスポンス設定の下で大きな推論モデルを攻撃することに成功している。
コードはhttps://github.com/Buyun-Liang/REALISTA.comで入手できる。
関連論文リスト
- LLM-Agnostic Semantic Representation Attack [18.00668872674083]
本稿では,敵対的目的をテキストのターゲットから悪意のあるセマンティック表現へと根本的に再認識する新しい LLM-Agnostic パラダイムを提案する。
我々は,このフレームワークをSemantic Representation Heuristic Search (SRHS)アルゴリズムを用いて運用し,対向的プロンプトの解釈可能性と構造的コヒーレンスを維持する。
当社のフレームワークは,26のオープンソース LLM に対して,99.71% の平均攻撃成功率を実現している。
論文 参考訳(メタデータ) (2026-05-09T11:43:47Z) - Exploring Semantic-constrained Adversarial Example with Instruction Uncertainty Reduction [51.50282796099369]
本稿では,多次元命令の不確実性低減フレームワークを開発し,意味論的に制約された逆の例を生成する。
言語誘導サンプリングプロセスの予測により、設計したResAdv-DDIMサンプルにより最適化プロセスが安定化される。
セマンティック制約付き3次元逆数例の参照フリー生成を初めて実現した。
論文 参考訳(メタデータ) (2025-10-27T04:02:52Z) - SECA: Semantically Equivalent and Coherent Attacks for Eliciting LLM Hallucinations [47.0190003379175]
大規模言語モデル(LLM)は、リスクの高いドメインにますますデプロイされる。
LLMはしばしば幻覚を発生させ、その信頼性について深刻な懸念を提起する。
本稿では,幻覚を誘発するためのセマンティック・等価・コヒーレント・アタック(SECA)を提案する。
論文 参考訳(メタデータ) (2025-10-05T23:44:54Z) - Semantic Representation Attack against Aligned Large Language Models [18.13997425681567]
大きな言語モデル(LLM)は、有害な出力を防ぐためにアライメント技術を採用する傾向にある。
現在の手法は通常、限定収束、不自然なプロンプト、高い計算コストに苦しむ正確な肯定応答を目標としている。
本稿では,LLMに対する敵対的目的を根本的に再認識する新しいパラダイムであるSemantic Representation Attackを紹介する。
論文 参考訳(メタデータ) (2025-09-18T15:06:46Z) - PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance [10.105673138616483]
大規模言語モデル(LLM)は、仮想アシスタントから自律エージェントに至るまで、現実のアプリケーションにますます統合されている。
攻撃者がパラフレーズ、難読化、マルチタスクのインジェクション戦略で進化するにつれて、既存のベンチマークは、出現する脅威の全スペクトルを捉えるのに十分ではない。
PromptSleuthは,表面的特徴ではなくタスクレベルの意図を推論することで,迅速なインジェクションを検出するセマンティック指向の防衛フレームワークである。
論文 参考訳(メタデータ) (2025-08-28T15:19:07Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。
我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文 参考訳(メタデータ) (2025-02-24T15:34:48Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。