論文の概要: SECA: Semantically Equivalent and Coherent Attacks for Eliciting LLM Hallucinations
- arxiv url: http://arxiv.org/abs/2510.04398v1
- Date: Sun, 05 Oct 2025 23:44:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.63067
- Title: SECA: Semantically Equivalent and Coherent Attacks for Eliciting LLM Hallucinations
- Title(参考訳): SECA: LLM幻覚を誘発するためのセマンティックに等価でコヒーレントな攻撃
- Authors: Buyun Liang, Liangzu Peng, Jinqi Luo, Darshan Thaker, Kwan Ho Ryan Chan, René Vidal,
- Abstract要約: 大規模言語モデル(LLM)は、リスクの高いドメインにますますデプロイされる。
LLMはしばしば幻覚を発生させ、その信頼性について深刻な懸念を提起する。
本稿では,幻覚を誘発するためのセマンティック・等価・コヒーレント・アタック(SECA)を提案する。
- 参考スコア(独自算出の注目度): 47.0190003379175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in high-risk domains. However, state-of-the-art LLMs often produce hallucinations, raising serious concerns about their reliability. Prior work has explored adversarial attacks for hallucination elicitation in LLMs, but it often produces unrealistic prompts, either by inserting gibberish tokens or by altering the original meaning. As a result, these approaches offer limited insight into how hallucinations may occur in practice. While adversarial attacks in computer vision often involve realistic modifications to input images, the problem of finding realistic adversarial prompts for eliciting LLM hallucinations has remained largely underexplored. To address this gap, we propose Semantically Equivalent and Coherent Attacks (SECA) to elicit hallucinations via realistic modifications to the prompt that preserve its meaning while maintaining semantic coherence. Our contributions are threefold: (i) we formulate finding realistic attacks for hallucination elicitation as a constrained optimization problem over the input prompt space under semantic equivalence and coherence constraints; (ii) we introduce a constraint-preserving zeroth-order method to effectively search for adversarial yet feasible prompts; and (iii) we demonstrate through experiments on open-ended multiple-choice question answering tasks that SECA achieves higher attack success rates while incurring almost no constraint violations compared to existing methods. SECA highlights the sensitivity of both open-source and commercial gradient-inaccessible LLMs to realistic and plausible prompt variations. Code is available at https://github.com/Buyun-Liang/SECA.
- Abstract(参考訳): 大規模言語モデル(LLM)は、リスクの高いドメインにますますデプロイされる。
しかし、最先端のLSMはしばしば幻覚を生じさせ、その信頼性に対する深刻な懸念を引き起こしている。
以前の研究は、LLMにおける幻覚誘発に対する敵対的な攻撃を探索してきたが、ジブベリのトークンを挿入したり、本来の意味を変更することによって、しばしば非現実的なプロンプトを生じる。
その結果、これらのアプローチは、実際にどのように幻覚が起こるかについての限られた洞察を与えている。
コンピュータビジョンにおける敵の攻撃は、しばしば入力画像に現実的な修正を伴うが、LLM幻覚を誘発する現実的な敵のプロンプトを見つけるという問題は、ほとんど未解明のままである。
このギャップに対処するため,意味的コヒーレンスを維持しつつその意味を保ったプロンプトに対して,現実的な修正を通じて幻覚を誘発するセマンティック・等価・コヒーレント・アタック(SECA)を提案する。
私たちの貢献は3倍です。
一 意味的同値性及びコヒーレンス制約の下で、入力プロンプト空間上の制約付き最適化問題として幻覚誘発の現実的な攻撃を定式化する。
(II) 制約保存ゼロ階法を導入し, 対角的かつ実現可能なプロンプトを効果的に探索する。
3)SECAの攻撃成功率向上を図りつつ,既存手法と比較して制約違反をほとんど起こさないオープンエンド複数選択質問応答タスクの実験を通じて,実証を行った。
SECAは、オープンソースと商用のグラデーションアクセス可能なLLMの両方の感度を、現実的で、かつ、妥当なプロンプトのバリエーションに強調する。
コードはhttps://github.com/Buyun-Liang/SECA.comで入手できる。
関連論文リスト
- Exposing Hallucinations To Suppress Them: VLMs Representation Editing With Generative Anchors [8.089908150148554]
マルチモーダル大規模言語モデル (MLLM) は様々な視覚言語タスクにおいて顕著な成功を収めている。
MLLMは幻覚に非常に敏感であり、視覚的証拠とは相容れない内容を生み出す。
本研究では,幻覚の緩和のための訓練不要で自己指導的な方法を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:24:28Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - Steering LVLMs via Sparse Autoencoder for Hallucination Mitigation [38.43656456659151]
大規模視覚言語モデル (LVLM) はマルチモーダルタスクにおいて顕著な性能を達成した。
彼らはまだ幻覚に悩まされており、視覚的な入力と矛盾するテキストを生成し、現実世界のアプリケーションに重大なリスクを及ぼしている。
LVLM における幻覚を緩和するために,SAE 由来の潜伏方向に基づくプラグアンドプレイ方式である SAE Latent Directions (SSL) を用いたステアリング LVLM を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:45:45Z) - Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models [3.9464481148889354]
層集約(DCLA)による層間整合性を用いた復号化機構を提案する。
提案手法は,従来のレイヤから表現を集約することで動的セマンティック参照を構築し,階層間の一貫性を強制するために意味的に逸脱したレイヤを補正する。
MMEやPOPEのような幻覚ベンチマークの実験では、DCLAはLVLMの信頼性と性能を高めつつ、幻覚を効果的に低減することを示した。
論文 参考訳(メタデータ) (2025-05-18T10:15:42Z) - Triggering Hallucinations in LLMs: A Quantitative Study of Prompt-Induced Hallucination in Large Language Models [0.0]
大規模言語モデル(LLM)における幻覚は、現実世界のアプリケーションにまたがる課題が増えていることを示している。
幻覚を系統的に引き起こし定量化するプロンプトベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T14:33:47Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。