Fugu-MT 論文翻訳(概要): LLMs are Vulnerable to Malicious Prompts Disguised as Scientific Language

論文の概要: LLMs are Vulnerable to Malicious Prompts Disguised as Scientific Language

arxiv url: http://arxiv.org/abs/2501.14073v1
Date: Thu, 23 Jan 2025 20:20:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-27 20:40:39.563826
Title: LLMs are Vulnerable to Malicious Prompts Disguised as Scientific Language
Title（参考訳）: LLMは、科学的言語として分類された悪意あるプロンプトに対して脆弱である
Authors: Yubin Ge, Neeraja Kirtane, Hao Peng, Dilek Hakkani-Tür,
Abstract要約: この研究は、多くの最先端のプロプライエタリでオープンソースのLLMが、科学言語の背後に隠された悪意のある要求に対して脆弱であることを明らかにする。同様に、これらのモデルは、バイアスが有益であると主張する、製造された科学的議論を生成するためにも操作できる。
参考スコア（独自算出の注目度）: 29.327927413978003
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: As large language models (LLMs) have been deployed in various real-world settings, concerns about the harm they may propagate have grown. Various jailbreaking techniques have been developed to expose the vulnerabilities of these models and improve their safety. This work reveals that many state-of-the-art proprietary and open-source LLMs are vulnerable to malicious requests hidden behind scientific language. Specifically, our experiments with GPT4o, GPT4o-mini, GPT-4, LLama3-405B-Instruct, Llama3-70B-Instruct, Cohere, Gemini models on the StereoSet data demonstrate that, the models' biases and toxicity substantially increase when prompted with requests that deliberately misinterpret social science and psychological studies as evidence supporting the benefits of stereotypical biases. Alarmingly, these models can also be manipulated to generate fabricated scientific arguments claiming that biases are beneficial, which can be used by ill-intended actors to systematically jailbreak even the strongest models like GPT. Our analysis studies various factors that contribute to the models' vulnerabilities to malicious requests in academic language. Mentioning author names and venues enhances the persuasiveness of some models, and the bias scores can increase as dialogues progress. Our findings call for a more careful investigation on the use of scientific data in the training of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)が様々な実環境にデプロイされているため、それらが伝播する可能性のある害に関する懸念が高まっている。これらのモデルの脆弱性を暴露し、安全性を向上させるために、さまざまなジェイルブレイク技術が開発されている。この研究は、多くの最先端のプロプライエタリでオープンソースのLLMが、科学言語の背後に隠された悪意のある要求に対して脆弱であることを明らかにする。特にGPT4o, GPT4o-mini, GPT-4, LLama3-405B-Instruct, Llama3-70B-Instruct, Cohere, GeminiのStereoSetデータを用いた実験では, ステレオタイプバイアスの利点を裏付ける証拠として, 社会科学と心理学研究を意図的に解釈する要求によって, モデルのバイアスと毒性が著しく増加することが示された。これらのモデルは、非意図的なアクターがGPTのような最強のモデルさえも体系的にジェイルブレイクするために使用できる、という科学的な議論を生み出すために操作することもできる。本分析は,学習言語における悪意ある要求に対するモデルの脆弱性に寄与するさまざまな要因について考察する。著者名や会場のメンションは、いくつかのモデルの説得力を高め、対話が進むにつれてバイアススコアが増加する可能性がある。 LLMのトレーニングにおける科学的データの利用について,より慎重な調査が求められた。

関連論文リスト

The Illusionist's Prompt: Exposing the Factual Vulnerabilities of Large Language Models with Linguistic Nuances [23.908718176644634]
大規模言語モデル(LLM)は、専門家でないユーザによるリアルタイム情報ソースとしてますます頼りになってきている。 The Illusionist's Promptは,言語的ニュアンスを敵対的クエリに組み込んだ,新たな幻覚攻撃である。我々の攻撃は、ユーザーの意図や意味を保ちながら、内部の事実的誤りを誘発する高度に伝達可能なイラストルプロンプトを自動生成する。
論文参考訳（メタデータ） (2025-04-01T07:10:00Z)
Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、卓越した計算能力と言語能力を示している。これらのモデルは本質的に、トレーニングデータから生じる様々なバイアスに起因している。本研究は,近年のLCMの応答におけるこれらのバイアスの存在について検討し,その公正さと信頼性への影響を分析した。
論文参考訳（メタデータ） (2024-07-11T12:30:19Z)
Impact of Non-Standard Unicode Characters on Security and Comprehension in Large Language Models [0.0]
本稿では、15個の異なるモデルの性能の比較分析を行う。モデルは、ジェイルブレイク、幻覚、理解エラーの総発生に基づいて評価される。 Unicodeの数字記号を標準ラテンブロックの外側に組み込んで、他の言語の文字の変種を組み込むことで、ガードレールの有効性の低下を観測した。
論文参考訳（メタデータ） (2024-05-23T12:24:38Z)
Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。 1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文参考訳（メタデータ） (2024-04-25T13:10:48Z)
Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs [9.254047358707014]
我々はemphSandwich攻撃と呼ばれる新しいブラックボックス攻撃ベクトル、多言語混合攻撃を導入する。 GoogleのBard, Gemini Pro, LLaMA-2-70-B-Chat, GPT-3.5-Turbo, GPT-4, Claude-3-OPUS の5つの異なるモデルを用いた実験により, この攻撃ベクトルは敵が有害な応答を生成するために使用できることを示した。
論文参考訳（メタデータ） (2024-04-09T18:29:42Z)
Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。 MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-06T11:32:41Z)
Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。 LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文参考訳（メタデータ） (2024-02-21T18:59:13Z)
Revisiting Jailbreaking for Large Language Models: A Representation Engineering Perspective [43.94115802328438]
最近のジェイルブレイク攻撃の急増により、悪意のある入力に晒された場合、Large Language Models(LLM)の重大な脆弱性が明らかになった。 LLMの自己保護能力は,その表現空間内の特定の行動パターンと関係があることが示唆された。これらのパターンは,数対のコントラストクエリで検出可能であることを示す。
論文参考訳（メタデータ） (2024-01-12T00:50:04Z)
FFT: Towards Harmlessness Evaluation and Analysis for LLMs with Factuality, Fairness, Toxicity [20.510512358961517]
生成的人工知能の普及により、AI生成テキストによる潜在的な害に対する懸念が高まっている。これまでの研究者は、生成言語モデルの無害性を評価するために多くの努力を払ってきた。
論文参考訳（メタデータ） (2023-11-30T14:18:47Z)
Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。 AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文参考訳（メタデータ） (2023-11-16T11:52:22Z)
Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。 GPT-3.5でさえ、実際の出力は25%以下である。これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文参考訳（メタデータ） (2023-10-23T04:39:01Z)
Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文参考訳（メタデータ） (2023-08-01T01:39:25Z)
On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文参考訳（メタデータ） (2023-05-23T04:10:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。