論文の概要: Evil twins are not that evil: Qualitative insights into machine-generated prompts
- arxiv url: http://arxiv.org/abs/2412.08127v3
- Date: Mon, 31 Mar 2025 16:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:31:47.470068
- Title: Evil twins are not that evil: Qualitative insights into machine-generated prompts
- Title(参考訳): 邪悪な双子はそんなに邪悪ではない-機械が生み出すプロンプトの質的な洞察
- Authors: Nathanaël Carraz Rakotonirina, Corentin Kervadec, Francesca Franzon, Marco Baroni,
- Abstract要約: 我々は不透明な機械生成プロンプト(オートプロンプト)を初めて網羅的に分析した。
機械生成プロンプトは、しばしば理解不能で、生成に強く影響を及ぼす最後のトークンによって特徴づけられる。
人間の専門家は、後部のオートプロンプトの中で最も影響力のあるトークンを確実に特定することができ、これらのプロンプトが完全に不透明ではないことを示唆している。
- 参考スコア(独自算出の注目度): 11.42957674201616
- License:
- Abstract: It has been widely observed that language models (LMs) respond in predictable ways to algorithmically generated prompts that are seemingly unintelligible. This is both a sign that we lack a full understanding of how LMs work, and a practical challenge, because opaqueness can be exploited for harmful uses of LMs, such as jailbreaking. We present the first thorough analysis of opaque machine-generated prompts, or autoprompts, pertaining to 6 LMs of different sizes and families. We find that machine-generated prompts are characterized by a last token that is often intelligible and strongly affects the generation. A small but consistent proportion of the previous tokens are prunable, probably appearing in the prompt as a by-product of the fact that the optimization process fixes the number of tokens. The remaining tokens fall into two categories: filler tokens, which can be replaced with semantically unrelated substitutes, and keywords, that tend to have at least a loose semantic relation with the generation, although they do not engage in well-formed syntactic relations with it. Additionally, human experts can reliably identify the most influential tokens in an autoprompt a posteriori, suggesting these prompts are not entirely opaque. Finally, some of the ablations we applied to autoprompts yield similar effects in natural language inputs, suggesting that autoprompts emerge naturally from the way LMs process linguistic inputs in general.
- Abstract(参考訳): 言語モデル(LM)が予測可能な方法で反応してアルゴリズムが生成するプロンプトが理解できないように見えることが広く観察されている。
これは、LMの動作方法の完全な理解が欠如している兆候であり、また、脱獄のような有害なLMの使用に不透明さを活用できるため、実践的な課題である。
我々は,不透明な機械生成プロンプト(オートプロンプト)を,サイズと家族の異なる6 LMで解析した。
機械生成プロンプトは、しばしば理解不能で、生成に強く影響を及ぼす最後のトークンによって特徴づけられる。
前のトークンの小さなが一貫した割合は、最適化プロセスがトークンの数を修正するという事実の副産物として、おそらくプロンプトに現れる。
残りのトークンは2つのカテゴリに分類される: フィラートークンは意味的に無関係な代用物に置き換えられるが、キーワードは、生成物と少なくともゆるやかなセマンティックな関係を持つ傾向がある。
加えて、人間の専門家はオートプロンプトの後方にある最も影響力のあるトークンを確実に特定することができ、これらのプロンプトが完全に不透明ではないことを示唆している。
最後に, 自然言語入力において, オートプロンプトを適用した場合, 言語入力の処理方法から, オートプロンプトが自然に出現することが示唆された。
関連論文リスト
- Incremental Sentence Processing Mechanisms in Autoregressive Transformer Language Models [12.866627382118768]
LMにおける庭道文処理のメカニズムについて検討する。
多くの重要な特徴が構文構造に関連するが、いくつかは構文的に無関係なことを反映している。
ほとんどのアクティブな特徴は文の一読に対応しているが、ある特徴は他方に対応しており、LMが両方の可能性に重みを同時に割り当てていることを示唆している。
論文 参考訳(メタデータ) (2024-12-06T18:54:54Z) - On the Representational Capacity of Neural Language Models with Chain-of-Thought Reasoning [87.73401758641089]
CoT推論による現代言語モデル(LM)の性能向上
LMは弦上の分布の族を確率的チューリングマシンと同一に表現できることを示す。
論文 参考訳(メタデータ) (2024-06-20T10:59:02Z) - Talking Nonsense: Probing Large Language Models' Understanding of Adversarial Gibberish Inputs [28.58726732808416]
我々は、Greedy Coordinate Gradientを用いて、大きな言語モデルに、一見非感覚的な入力から一貫性のある応答を生成するよう強制するプロンプトを作成する。
操作効率は対象のテキストの長さとパープレキシティに依存しており、Babelプロンプトは低損失最小値に置かれることが多い。
特に、有害なテキストを生成するためのモデルを導くことは、良質なテキストを生成することよりも難しくなく、配布外プロンプトのアライメントの欠如が示唆されている。
論文 参考訳(メタデータ) (2024-04-26T02:29:26Z) - Let's Think Dot by Dot: Hidden Computation in Transformer Language Models [30.972412126012884]
言語モデルの連鎖応答は、ほとんどのベンチマークのパフォーマンスを改善する。
変換器は、2つの難解なアルゴリズムタスクを解くための思考の連鎖の代わりに無意味なフィラートークンを使用できることを示す。
フィラートークンを使用する学習は困難であり、収束するためには、具体的で密集した監督が必要である。
論文 参考訳(メタデータ) (2024-04-24T09:30:00Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models [99.31449616860291]
現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学べる。
次の命令では、ターゲットタスクは自然言語で明示的に記述され、少数ショットプロンプトでは、タスクは暗黙的に指定される。
命令推論では、LMはインコンテキストの例を示し、自然言語のタスク記述を生成するように促される。
論文 参考訳(メタデータ) (2024-04-03T19:31:56Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z) - Extend and Explain: Interpreting Very Long Language Models [0.0]
本稿では,予測に寄与するテキストブロックを識別するための新しいMasked Smpling procedure (MSP)を提案する。
MSPは、以前の最先端よりも1.7倍の臨床的に有益なテキストブロックを特定し、100倍の速度で走り、重要なフレーズペアを生成することができる。
論文 参考訳(メタデータ) (2022-09-02T17:15:43Z) - Position-based Prompting for Health Outcome Generation [0.0]
そこで本研究では,各単語の位置情報をマスクに対するプロンプトで捕捉する位置認識機構について検討する。
我々のアプローチは、デフォルトのマスク言語モデル(MLM)表現がマスクトークンの予測に使用されるベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2022-03-30T16:44:04Z) - Reflective Decoding: Beyond Unidirectional Generation with Off-the-Shelf
Language Models [63.808843089941405]
大規模な事前訓練された言語モデル(LM)は、顕著な品質のテキストを生成するが、左から右へ連続的にしか生成しない。
非順序タスクへの一方向LMの直接適用を可能にする新しい教師なしアルゴリズムであるReflective Decodingを提案する。
2段階のアプローチでは、監視もパラレルコーパスも必要ありません。
論文 参考訳(メタデータ) (2020-10-16T18:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。