Fugu-MT 論文翻訳(概要): Evil twins are not that evil: Qualitative insights into machine-generated prompts

論文の概要: Evil twins are not that evil: Qualitative insights into machine-generated prompts

arxiv url: http://arxiv.org/abs/2412.08127v3
Date: Mon, 31 Mar 2025 16:33:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 15:20:31.219608
Title: Evil twins are not that evil: Qualitative insights into machine-generated prompts
Title（参考訳）: 邪悪な双子はそんなに邪悪ではない-機械が生み出すプロンプトの質的な洞察
Authors: Nathanaël Carraz Rakotonirina, Corentin Kervadec, Francesca Franzon, Marco Baroni,
Abstract要約: 我々は不透明な機械生成プロンプト(オートプロンプト)を初めて網羅的に分析した。機械生成プロンプトは、しばしば理解不能で、生成に強く影響を及ぼす最後のトークンによって特徴づけられる。人間の専門家は、後部のオートプロンプトの中で最も影響力のあるトークンを確実に特定することができ、これらのプロンプトが完全に不透明ではないことを示唆している。
参考スコア（独自算出の注目度）: 11.42957674201616
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It has been widely observed that language models (LMs) respond in predictable ways to algorithmically generated prompts that are seemingly unintelligible. This is both a sign that we lack a full understanding of how LMs work, and a practical challenge, because opaqueness can be exploited for harmful uses of LMs, such as jailbreaking. We present the first thorough analysis of opaque machine-generated prompts, or autoprompts, pertaining to 6 LMs of different sizes and families. We find that machine-generated prompts are characterized by a last token that is often intelligible and strongly affects the generation. A small but consistent proportion of the previous tokens are prunable, probably appearing in the prompt as a by-product of the fact that the optimization process fixes the number of tokens. The remaining tokens fall into two categories: filler tokens, which can be replaced with semantically unrelated substitutes, and keywords, that tend to have at least a loose semantic relation with the generation, although they do not engage in well-formed syntactic relations with it. Additionally, human experts can reliably identify the most influential tokens in an autoprompt a posteriori, suggesting these prompts are not entirely opaque. Finally, some of the ablations we applied to autoprompts yield similar effects in natural language inputs, suggesting that autoprompts emerge naturally from the way LMs process linguistic inputs in general.
Abstract（参考訳）: 言語モデル(LM)が予測可能な方法で反応してアルゴリズムが生成するプロンプトが理解できないように見えることが広く観察されている。これは、LMの動作方法の完全な理解が欠如している兆候であり、また、脱獄のような有害なLMの使用に不透明さを活用できるため、実践的な課題である。我々は,不透明な機械生成プロンプト(オートプロンプト)を,サイズと家族の異なる6 LMで解析した。機械生成プロンプトは、しばしば理解不能で、生成に強く影響を及ぼす最後のトークンによって特徴づけられる。前のトークンの小さなが一貫した割合は、最適化プロセスがトークンの数を修正するという事実の副産物として、おそらくプロンプトに現れる。残りのトークンは2つのカテゴリに分類される: フィラートークンは意味的に無関係な代用物に置き換えられるが、キーワードは、生成物と少なくともゆるやかなセマンティックな関係を持つ傾向がある。加えて、人間の専門家はオートプロンプトの後方にある最も影響力のあるトークンを確実に特定することができ、これらのプロンプトが完全に不透明ではないことを示唆している。最後に, 自然言語入力において, オートプロンプトを適用した場合, 言語入力の処理方法から, オートプロンプトが自然に出現することが示唆された。

関連論文リスト

Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Pr$εε$mpt: Sanitizing Sensitive Prompts for LLMs [49.84954577111077]
Pr$epsilonepsilon$mptは、プロンプト消毒剤を実装する新しいシステムである。 Pr$epsilonepsilon$mptは、意味のあるプライバシー保証を実現するための実用的な方法であることを示す。
論文参考訳（メタデータ） (2025-04-07T14:52:40Z)
Incremental Sentence Processing Mechanisms in Autoregressive Transformer Language Models [12.866627382118768]
LMにおける庭道文処理のメカニズムについて検討する。多くの重要な特徴が構文構造に関連するが、いくつかは構文的に無関係なことを反映している。ほとんどのアクティブな特徴は文の一読に対応しているが、ある特徴は他方に対応しており、LMが両方の可能性に重みを同時に割り当てていることを示唆している。
論文参考訳（メタデータ） (2024-12-06T18:54:54Z)
Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers [32.274579719726546]
トークン化は、人間可読テキストをモデル可読な離散トークンでブリッジする重要なステップである。近年の研究では、トークン化剤が不要なモデル挙動を引き出すために利用できることが判明している。非完全トークン、すなわち、バイトレベルバイトペア符号化(BPE)トークン化(英語版)による不完全トークン、すなわち、不完全トークンについて検討する。
論文参考訳（メタデータ） (2024-10-31T07:19:44Z)
SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。 SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文参考訳（メタデータ） (2024-05-24T13:35:56Z)
Talking Nonsense: Probing Large Language Models' Understanding of Adversarial Gibberish Inputs [28.58726732808416]
我々は、Greedy Coordinate Gradientを用いて、大きな言語モデルに、一見非感覚的な入力から一貫性のある応答を生成するよう強制するプロンプトを作成する。操作効率は対象のテキストの長さとパープレキシティに依存しており、Babelプロンプトは低損失最小値に置かれることが多い。特に、有害なテキストを生成するためのモデルを導くことは、良質なテキストを生成することよりも難しくなく、配布外プロンプトのアライメントの欠如が示唆されている。
論文参考訳（メタデータ） (2024-04-26T02:29:26Z)
Let's Think Dot by Dot: Hidden Computation in Transformer Language Models [30.972412126012884]
言語モデルの連鎖応答は、ほとんどのベンチマークのパフォーマンスを改善する。変換器は、2つの難解なアルゴリズムタスクを解くための思考の連鎖の代わりに無意味なフィラートークンを使用できることを示す。フィラートークンを使用する学習は困難であり、収束するためには、具体的で密集した監督が必要である。
論文参考訳（メタデータ） (2024-04-24T09:30:00Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models [99.31449616860291]
現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学べる。次の命令では、ターゲットタスクは自然言語で明示的に記述され、少数ショットプロンプトでは、タスクは暗黙的に指定される。命令推論では、LMはインコンテキストの例を示し、自然言語のタスク記述を生成するように促される。
論文参考訳（メタデータ） (2024-04-03T19:31:56Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs' Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文参考訳（メタデータ） (2023-10-25T23:32:12Z)
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文参考訳（メタデータ） (2023-10-03T19:44:37Z)
Extend and Explain: Interpreting Very Long Language Models [0.0]
本稿では,予測に寄与するテキストブロックを識別するための新しいMasked Smpling procedure (MSP)を提案する。 MSPは、以前の最先端よりも1.7倍の臨床的に有益なテキストブロックを特定し、100倍の速度で走り、重要なフレーズペアを生成することができる。
論文参考訳（メタデータ） (2022-09-02T17:15:43Z)
Position-based Prompting for Health Outcome Generation [0.0]
そこで本研究では,各単語の位置情報をマスクに対するプロンプトで捕捉する位置認識機構について検討する。我々のアプローチは、デフォルトのマスク言語モデル(MLM)表現がマスクトークンの予測に使用されるベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2022-03-30T16:44:04Z)
Reflective Decoding: Beyond Unidirectional Generation with Off-the-Shelf Language Models [63.808843089941405]
大規模な事前訓練された言語モデル(LM)は、顕著な品質のテキストを生成するが、左から右へ連続的にしか生成しない。非順序タスクへの一方向LMの直接適用を可能にする新しい教師なしアルゴリズムであるReflective Decodingを提案する。 2段階のアプローチでは、監視もパラレルコーパスも必要ありません。
論文参考訳（メタデータ） (2020-10-16T18:02:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。