論文の概要: Forbidden Facts: An Investigation of Competing Objectives in Llama-2
- arxiv url: http://arxiv.org/abs/2312.08793v3
- Date: Sun, 31 Dec 2023 05:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 00:50:49.487021
- Title: Forbidden Facts: An Investigation of Competing Objectives in Llama-2
- Title(参考訳): 禁止事実:llama-2における競合目標の調査
- Authors: Tony T. Wang, Miles Wang, Kaivalya Hariharan, Nir Shavit
- Abstract要約: 我々はLlama-2に、正しい答えを言うのを禁止しながら、真実にリコールステートメントを完了するよう指示する。
これはしばしば、モデルに誤った答えを与える。
Llama-2を1000以上の成分に分解し、正しい解を禁ずるのがいかに有用かに関してそれぞれをランク付けする。
- 参考スコア(独自算出の注目度): 3.541570601342306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs often face competing pressures (for example helpfulness vs.
harmlessness). To understand how models resolve such conflicts, we study
Llama-2-chat models on the forbidden fact task. Specifically, we instruct
Llama-2 to truthfully complete a factual recall statement while forbidding it
from saying the correct answer. This often makes the model give incorrect
answers. We decompose Llama-2 into 1000+ components, and rank each one with
respect to how useful it is for forbidding the correct answer. We find that in
aggregate, around 35 components are enough to reliably implement the full
suppression behavior. However, these components are fairly heterogeneous and
many operate using faulty heuristics. We discover that one of these heuristics
can be exploited via a manually designed adversarial attack which we call The
California Attack. Our results highlight some roadblocks standing in the way of
being able to successfully interpret advanced ML systems. Project website
available at https://forbiddenfacts.github.io .
- Abstract(参考訳): LLMは、しばしば競合する圧力(例えば、有用性対無害性)に直面します。
モデルがこのような矛盾をどのように解決するかを理解するため、llama-2-chatモデルを禁止ファクトタスクで研究する。
具体的には、llama-2に、正しい答えを述べることを禁じながら、事実リコールステートメントを真に完了するよう指示します。
これはしばしばモデルに誤った答えを与える。
Llama-2を1000以上の成分に分解し、正しい解を禁ずるのがいかに有用かに関してそれぞれをランク付けする。
まとめると、約35のコンポーネントが完全な抑制動作を確実に実装するのに十分であることがわかった。
しかし、これらのコンポーネントはかなり異種であり、多くのコンポーネントは欠陥ヒューリスティックを使って動作している。
我々は、これらのヒューリスティックの1つが、カリフォルニア攻撃と呼ばれる手動で設計された敵の攻撃によって悪用できることを発見した。
以上の結果から,先進的なMLシステムの解釈に成功している障害が浮き彫りになった。
プロジェクトwebサイトはhttps://forbiddenfacts.github.ioで閲覧できる。
関連論文リスト
- WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition [10.476666078206783]
大規模言語モデル(LLM)は多くの自然言語処理タスクで成功している。
Llama 2やClaude 2のような安全アライメントのLLMは、厳格な安全アライメントプロセスにもかかわらず、今でもジェイルブレイクの影響を受けやすい。
PARDENは、単にモデルに自身の出力を繰り返すように頼み、ドメインシフトを避ける。
論文 参考訳(メタデータ) (2024-05-13T17:08:42Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Jailbreaker in Jail: Moving Target Defense for Large Language Models [4.426665953648274]
大規模言語モデル(LLM)は敵攻撃に対して脆弱である。
LLMは非倫理的な答えを提示することで「無害」に失敗するか、意味のある答えを拒むことで「有害」に失敗する。
有効性と無害性を両立させるため,移動目標防御(MTD)強化LLMシステムを設計した。
論文 参考訳(メタデータ) (2023-10-03T20:32:04Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - TASA: Deceiving Question Answering Models by Twin Answer Sentences
Attack [93.50174324435321]
本稿では,質問応答(QA)モデルに対する敵対的攻撃手法であるTASA(Twin Answer Sentences Attack)を提案する。
TASAは、金の回答を維持しながら、流動的で文法的な逆境を生み出す。
論文 参考訳(メタデータ) (2022-10-27T07:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。