論文の概要: Prompts have evil twins
- arxiv url: http://arxiv.org/abs/2311.07064v3
- Date: Sun, 06 Oct 2024 23:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:40:03.958513
- Title: Prompts have evil twins
- Title(参考訳): プロンプトには邪悪な双子がいます
- Authors: Rimon Melamed, Lucas H. McCabe, Tanay Wakhare, Yejin Kim, H. Howie Huang, Enric Boix-Adsera,
- Abstract要約: 私たちはこれらのプロンプトを「悪の双子」と呼びます。
これらのプロンプトは、独立性のある応用を持つ最大様相問題の解法によって得られる。
- 参考スコア(独自算出の注目度): 3.043247652016184
- License:
- Abstract: We discover that many natural-language prompts can be replaced by corresponding prompts that are unintelligible to humans but that provably elicit similar behavior in language models. We call these prompts "evil twins" because they are obfuscated and uninterpretable (evil), but at the same time mimic the functionality of the original natural-language prompts (twins). Remarkably, evil twins transfer between models. We find these prompts by solving a maximum-likelihood problem which has applications of independent interest.
- Abstract(参考訳): 多くの自然言語プロンプトは、人間には理解できないが、言語モデルに類似した振る舞いを確実に引き起こすような、対応するプロンプトに置き換えられることがわかりました。
これらのプロンプトは難解で解釈不能な(evil)ため、"evil twins"と呼んでいるが、同時に元の自然言語プロンプト(ツイン)の機能を模倣している。
興味深いことに、邪悪な双子はモデル間で移動します。
これらのプロンプトは、独立性のある応用を持つ最大様相問題の解法によって得られる。
関連論文リスト
- Models Can and Should Embrace the Communicative Nature of Human-Generated Math [13.491107542643839]
モデルが学習される数学データは、理想化された数学的実体だけでなく、豊かなコミュニケーション意図を反映していると論じる。
我々は、人間生成数学において潜在するコミュニケーション意図から学習し、表現するAIシステムを提唱する。
論文 参考訳(メタデータ) (2024-09-25T15:08:08Z) - ASTPrompter: Weakly Supervised Automated Language Model Red-Teaming to Identify Likely Toxic Prompts [33.774939728834156]
凍結したディフェンダーから有害な出力を誘導するプロンプトを発見することができるレッドチームタスクの強化学習式を提案する。
我々は,GPT-2,GPT-2 XL,TinyLlamaディフェンダーから毒性を誘発する可能性(低難易度)のプロンプトを生成できることを示す。
論文 参考訳(メタデータ) (2024-07-12T17:33:34Z) - Talking Nonsense: Probing Large Language Models' Understanding of Adversarial Gibberish Inputs [28.58726732808416]
我々は、Greedy Coordinate Gradientを用いて、大きな言語モデルに、一見非感覚的な入力から一貫性のある応答を生成するよう強制するプロンプトを作成する。
操作効率は対象のテキストの長さとパープレキシティに依存しており、Babelプロンプトは低損失最小値に置かれることが多い。
特に、有害なテキストを生成するためのモデルを導くことは、良質なテキストを生成することよりも難しくなく、配布外プロンプトのアライメントの欠如が示唆されている。
論文 参考訳(メタデータ) (2024-04-26T02:29:26Z) - An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models [99.31449616860291]
現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学べる。
次の命令では、ターゲットタスクは自然言語で明示的に記述され、少数ショットプロンプトでは、タスクは暗黙的に指定される。
命令推論では、LMはインコンテキストの例を示し、自然言語のタスク記述を生成するように促される。
論文 参考訳(メタデータ) (2024-04-03T19:31:56Z) - Frontier Language Models are not Robust to Adversarial Arithmetic, or
"What do I need to say so you agree 2+2=5? [88.59136033348378]
言語モデルアライメントのための単純なテストベッドを提供する逆算術の問題を考察する。
この問題は自然言語で表される算術的な問題から成り、質問が完了する前に任意の逆文字列を挿入する。
これらの攻撃に対して、強化学習やエージェント構成ループを通じて、モデルを部分的に強化できることが示される。
論文 参考訳(メタデータ) (2023-11-08T19:07:10Z) - Effective Prompt Extraction from Language Models [70.00099540536382]
本稿では,迅速な抽出攻撃の有効性を評価するための枠組みを提案する。
3つの異なるプロンプトと11の基盤となる大規模言語モデルによる実験では、単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
本フレームワークは,抽出したプロンプトがモデル幻覚ではなく実際の秘密プロンプトであるか否かを高精度に判定する。
論文 参考訳(メタデータ) (2023-07-13T16:15:08Z) - Demystifying Prompts in Language Models via Perplexity Estimation [109.59105230163041]
プロンプトのパフォーマンスは、モデルが含んでいる言語に精通している範囲と結合している。
プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
論文 参考訳(メタデータ) (2022-12-08T02:21:47Z) - Is the Elephant Flying? Resolving Ambiguities in Text-to-Image
Generative Models [64.58271886337826]
テキストから画像への生成モデルで生じるあいまいさについて検討する。
本稿では,ユーザから明確化を求めることによって,システムに与えられるプロンプトのあいまいさを軽減する枠組みを提案する。
論文 参考訳(メタデータ) (2022-11-17T17:12:43Z) - Discovering the Hidden Vocabulary of DALLE-2 [96.19666636109729]
DALLE-2は、不条理なプロンプトで画像を生成するために使用できる、隠れた語彙を持つように見える。
例えば、 textttApoploe vesrreaitais は鳥を意味し、 textttContarra ccetnxniams luryca tanniounons は虫や害虫を意味する。
論文 参考訳(メタデータ) (2022-06-01T01:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。