論文の概要: Nevermind: Instruction Override and Moderation in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.03303v1
- Date: Mon, 5 Feb 2024 18:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:07:36.821050
- Title: Nevermind: Instruction Override and Moderation in Large Language Models
- Title(参考訳): nevermind: 大きな言語モデルにおける命令のオーバーライドとモデレーション
- Authors: Edward Kim
- Abstract要約: 競合状況下での明示的な指示のタスクにおいて、最もポピュラーなプロプライエタリかつ異なるサイズのオープンソースモデルを調査し、ベンチマークする。
提案手法は,言語モデルが与えられた安全フィルタやガイドラインに従う能力と根本的に相反する。
- 参考スコア(独自算出の注目度): 2.0935496890864207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the impressive capabilities of recent Large Language Models (LLMs), we
investigate and benchmark the most popular proprietary and different sized open
source models on the task of explicit instruction following in conflicting
situations, e.g. overrides. These include the ability of the model to override
the knowledge within the weights of the model, the ability to override (or
moderate) extracted knowledge in the prompt, and lastly the ability to perform
a full jailbreak. Experimentation performed suggest several key findings to
improve instruction following - larger models perform the best in following
instructions that override internal and contextual instructions, and are
obedient, even to a fault. When scaling to longer contexts via rope scaling, a
significant buffer needs to be maintained from the edge of the perplexity cliff
in order to maintain instruction following capabilities. Finally, we observe
improving instruction following, and subsequently instruction
overrides/jailbreaks, is fundamentally at odds with the ability of a language
model to follow given safety filters or guidelines. Thus, we postulate the most
effective approach for safe, trustworthy AI should be dealt external to the LLM
itself.
- Abstract(参考訳): 最近のLarge Language Models(LLMs)の印象的な機能を考えると、オーバーライドのような競合する状況下で明示的な命令に従うタスクにおいて、最もポピュラーなプロプライエタリで異なるサイズのオープンソースモデルを調査し、ベンチマークする。
モデルがモデルの重み内で知識をオーバーライドする能力、プロンプトで抽出した知識をオーバーライド(あるいは適度に)する能力、そして最後に完全なジェイルブレイクを実行する能力がある。
大規模なモデルでは、内部命令とコンテキスト命令をオーバーライドする命令が最善であり、障害に対してさえ従順である。
ロープスケーリングによる長いコンテキストへのスケーリングでは、命令に従う能力を維持するために、パープレキシティ崖の端から重要なバッファを維持する必要がある。
最後に,言語モデルが与えられた安全フィルタやガイドラインに従う能力と根本的に相反する命令の追従,次いで命令のオーバーライド/ジェイルブレークを観察する。
したがって、安全で信頼性の高いAIに対して最も効果的なアプローチは、LLM自体の外部で扱うべきであると仮定する。
関連論文リスト
- Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy [53.54777131440989]
LLM(Large Language Models)は、セキュリティや安全性の脅威を受けやすい言語である。
これらの脆弱性の大きな原因の1つは、命令階層の欠如である。
本稿では,BERTにインスパイアされた命令セグメント埋め込み(ISE)技法を,現代の大規模言語モデルに導入する。
論文 参考訳(メタデータ) (2024-10-09T12:52:41Z) - Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models? [3.258629327038072]
大規模言語モデル(LLM)は、自然言語処理における印象的な機能を示している。
しかし、これらのモデルによって有害なコンテンツを生成する可能性は持続しているようだ。
本稿では,LLMをジェイルブレイクし,敵の引き金を通したアライメントを逆転させる概念について検討する。
論文 参考訳(メタデータ) (2024-08-05T17:27:29Z) - Adversarial Contrastive Decoding: Boosting Safety Alignment of Large Language Models via Opposite Prompt Optimization [34.29833630422768]
Adversarial Contrastive Decoding (ACD)は、プロンプトベースのコントラストデコーディングのための2つの逆のシステムプロンプトを生成する最適化ベースのフレームワークである。
ACDは、元の生成能力を犠牲にすることなく、従来のトレーニング不要復号法よりもはるかに優れた安全性を実現する。
論文 参考訳(メタデータ) (2024-06-24T15:51:30Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output
Robustness of Large Language Models [28.37026309925163]
大きな言語モデル(LLM)は人間の値と一致し、安全なテキストを生成するように設計されている。
以前のJailbreaking LLMのベンチマークでは、主にモデルの安全性の評価に焦点が当てられていた。
本稿では,LLMの安全性とロバスト性を両立させ,バランスの取れたアプローチの必要性を強調した。
論文 参考訳(メタデータ) (2023-07-17T13:49:52Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。