論文の概要: The Illusionist's Prompt: Exposing the Factual Vulnerabilities of Large Language Models with Linguistic Nuances
- arxiv url: http://arxiv.org/abs/2504.02865v1
- Date: Tue, 01 Apr 2025 07:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:29.124197
- Title: The Illusionist's Prompt: Exposing the Factual Vulnerabilities of Large Language Models with Linguistic Nuances
- Title(参考訳): Illusionist's Prompt:Exposing the Factual Vulnerabilities of Large Language Models with Linguistic Nuances
- Authors: Yining Wang, Yuquan Wang, Xi Li, Mi Zhang, Geng Hong, Min Yang,
- Abstract要約: 大規模言語モデル(LLM)は、専門家でないユーザによるリアルタイム情報ソースとしてますます頼りになってきている。
The Illusionist's Promptは,言語的ニュアンスを敵対的クエリに組み込んだ,新たな幻覚攻撃である。
我々の攻撃は、ユーザーの意図や意味を保ちながら、内部の事実的誤りを誘発する高度に伝達可能なイラストルプロンプトを自動生成する。
- 参考スコア(独自算出の注目度): 23.908718176644634
- License:
- Abstract: As Large Language Models (LLMs) continue to advance, they are increasingly relied upon as real-time sources of information by non-expert users. To ensure the factuality of the information they provide, much research has focused on mitigating hallucinations in LLM responses, but only in the context of formal user queries, rather than maliciously crafted ones. In this study, we introduce The Illusionist's Prompt, a novel hallucination attack that incorporates linguistic nuances into adversarial queries, challenging the factual accuracy of LLMs against five types of fact-enhancing strategies. Our attack automatically generates highly transferrable illusory prompts to induce internal factual errors, all while preserving user intent and semantics. Extensive experiments confirm the effectiveness of our attack in compromising black-box LLMs, including commercial APIs like GPT-4o and Gemini-2.0, even with various defensive mechanisms.
- Abstract(参考訳): LLM(Large Language Models)が進歩を続けるにつれ、非専門家によるリアルタイム情報ソースとしてますます頼りになってきている。
彼らが提供した情報の事実を確実にするために、多くの研究はLLM応答における幻覚を緩和することに焦点を合わせてきた。
本研究では,言語的ニュアンスを相手語クエリに組み込んだ新たな幻覚攻撃であるThe Illusionist's Promptを紹介する。
我々の攻撃は、ユーザーの意図や意味を保ちながら、内部の事実的誤りを誘発する高度に伝達可能なイラストルプロンプトを自動生成する。
GPT-4o や Gemini-2.0 などの商用 API を含むブラックボックス LLM を様々な防御機構で競合させる攻撃の有効性を確認した。
関連論文リスト
- Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
ディセプション・アタック(deception attack)は、ユーザーが選択したトピックをトリガーし、他の人に正確さを保ちながら、ユーザーを誤解させるようなモデルをカスタマイズする。
詐欺モデルもまた有害性を示し、ヘイトスピーチ、ステレオタイプ、その他の有害な内容を生成する。
論文 参考訳(メタデータ) (2025-02-12T11:02:59Z) - LLMs are Vulnerable to Malicious Prompts Disguised as Scientific Language [29.327927413978003]
この研究は、多くの最先端のLSMが、科学用語の裏に隠された悪意のある要求に弱いことを明らかにしている。
GPT4o, GPT4o-mini, GPT-4, LLama3-405B-Instruct, Llama3-70B-Instruct, Cohere, Gemini モデルを用いて行った実験では, ステレオタイプバイアスの利点を裏付ける証拠として, 社会科学と心理学研究を意図的に解釈する要求により, モデルのバイアスと毒性が著しく増加することが示された。
論文 参考訳(メタデータ) (2025-01-23T20:20:20Z) - The Dark Side of Human Feedback: Poisoning Large Language Models via User Inputs [8.449922248196705]
我々は,アライメントトレーニング保護を貫くために,ユーザから供給されるプロンプトを介して,微妙ながら効果的な毒殺攻撃を行う。
我々の攻撃は、ブラックボックス設定における目標LLMの明示的な知識がなくても、報酬フィードバック機構を微妙に変更する。
これらの特殊なプロンプトの1%をデータに注入することにより、悪意のあるユーザを通して、特定のトリガーワードを使用する場合の毒性スコアを最大2倍に向上させる。
論文 参考訳(メタデータ) (2024-09-01T17:40:04Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Counterfactual Explainable Incremental Prompt Attack Analysis on Large Language Models [32.03992137755351]
本研究は,大規模言語モデル(LLM)における安全性とプライバシ対策の推進的必要性に光を当てるものである。
本稿では,攻撃効果を定量的に測定するために,特定の方法でプロンプトを誘導する新しい手法であるCEIPAを提案する。
論文 参考訳(メタデータ) (2024-07-12T14:26:14Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Chaos with Keywords: Exposing Large Language Models Sycophantic Hallucination to Misleading Keywords and Evaluating Defense Strategies [47.92996085976817]
本研究では,Large Language Models (LLMs) の梅毒傾向について検討する。
LLMは、たとえ完全に正しくなくても、ユーザが聞きたいものと一致した回答を提供する傾向があります。
論文 参考訳(メタデータ) (2024-06-06T08:03:05Z) - Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs [9.254047358707014]
我々はemphSandwich攻撃と呼ばれる新しいブラックボックス攻撃ベクトル、多言語混合攻撃を導入する。
GoogleのBard, Gemini Pro, LLaMA-2-70-B-Chat, GPT-3.5-Turbo, GPT-4, Claude-3-OPUS の5つの異なるモデルを用いた実験により, この攻撃ベクトルは敵が有害な応答を生成するために使用できることを示した。
論文 参考訳(メタデータ) (2024-04-09T18:29:42Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。