論文の概要: PROPANE: Prompt design as an inverse problem
- arxiv url: http://arxiv.org/abs/2311.07064v1
- Date: Mon, 13 Nov 2023 04:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:38:42.200890
- Title: PROPANE: Prompt design as an inverse problem
- Title(参考訳): PROPANE: 逆問題としてのプロンプト設計
- Authors: Rimon Melamed, Lucas H. McCabe, Tanay Wakhare, Yejin Kim, H. Howie
Huang, Enric Boix-Adsera
- Abstract要約: 本稿では,自動プロンプト最適化フレームワーク PROPANE を提案する。
ユーザの介入なしに、意味的に類似したアウトプットを固定されたサンプルセットに誘導するプロンプトを見つけることを目的としている。
- 参考スコア(独自算出の注目度): 3.2246733602718693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Carefully-designed prompts are key to inducing desired behavior in Large
Language Models (LLMs). As a result, great effort has been dedicated to
engineering prompts that guide LLMs toward particular behaviors. In this work,
we propose an automatic prompt optimization framework, PROPANE, which aims to
find a prompt that induces semantically similar outputs to a fixed set of
examples without user intervention. We further demonstrate that PROPANE can be
used to (a) improve existing prompts, and (b) discover semantically obfuscated
prompts that transfer between models.
- Abstract(参考訳): 注意深い設計のプロンプトは、LLM(Large Language Models)において望ましい振る舞いを誘導する鍵となる。
その結果、LLMを特定の行動に導くエンジニアリングプロンプトに多大な努力が注がれた。
本研究では,ユーザの介入なしに,意味的に類似した出力を固定された例集合に誘導するプロンプトを見つけることを目的とした,自動プロンプト最適化フレームワーク PROPANE を提案する。
さらに, PROPANE が有効であることを示す。
(a)既存プロンプトの改善、及び
b) モデル間の転送を意味的に難読化するプロンプトを発見する。
関連論文リスト
- Models Can and Should Embrace the Communicative Nature of Human-Generated Math [13.491107542643839]
モデルが学習される数学データは、理想化された数学的実体だけでなく、豊かなコミュニケーション意図を反映していると論じる。
我々は、人間生成数学において潜在するコミュニケーション意図から学習し、表現するAIシステムを提唱する。
論文 参考訳(メタデータ) (2024-09-25T15:08:08Z) - ASTPrompter: Weakly Supervised Automated Language Model Red-Teaming to Identify Likely Toxic Prompts [33.774939728834156]
凍結したディフェンダーから有害な出力を誘導するプロンプトを発見することができるレッドチームタスクの強化学習式を提案する。
我々は,GPT-2,GPT-2 XL,TinyLlamaディフェンダーから毒性を誘発する可能性(低難易度)のプロンプトを生成できることを示す。
論文 参考訳(メタデータ) (2024-07-12T17:33:34Z) - Talking Nonsense: Probing Large Language Models' Understanding of Adversarial Gibberish Inputs [28.58726732808416]
我々は、Greedy Coordinate Gradientを用いて、大きな言語モデルに、一見非感覚的な入力から一貫性のある応答を生成するよう強制するプロンプトを作成する。
操作効率は対象のテキストの長さとパープレキシティに依存しており、Babelプロンプトは低損失最小値に置かれることが多い。
特に、有害なテキストを生成するためのモデルを導くことは、良質なテキストを生成することよりも難しくなく、配布外プロンプトのアライメントの欠如が示唆されている。
論文 参考訳(メタデータ) (2024-04-26T02:29:26Z) - An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models [99.31449616860291]
現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学べる。
次の命令では、ターゲットタスクは自然言語で明示的に記述され、少数ショットプロンプトでは、タスクは暗黙的に指定される。
命令推論では、LMはインコンテキストの例を示し、自然言語のタスク記述を生成するように促される。
論文 参考訳(メタデータ) (2024-04-03T19:31:56Z) - Frontier Language Models are not Robust to Adversarial Arithmetic, or
"What do I need to say so you agree 2+2=5? [88.59136033348378]
言語モデルアライメントのための単純なテストベッドを提供する逆算術の問題を考察する。
この問題は自然言語で表される算術的な問題から成り、質問が完了する前に任意の逆文字列を挿入する。
これらの攻撃に対して、強化学習やエージェント構成ループを通じて、モデルを部分的に強化できることが示される。
論文 参考訳(メタデータ) (2023-11-08T19:07:10Z) - Effective Prompt Extraction from Language Models [70.00099540536382]
本稿では,迅速な抽出攻撃の有効性を評価するための枠組みを提案する。
3つの異なるプロンプトと11の基盤となる大規模言語モデルによる実験では、単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
本フレームワークは,抽出したプロンプトがモデル幻覚ではなく実際の秘密プロンプトであるか否かを高精度に判定する。
論文 参考訳(メタデータ) (2023-07-13T16:15:08Z) - Demystifying Prompts in Language Models via Perplexity Estimation [109.59105230163041]
プロンプトのパフォーマンスは、モデルが含んでいる言語に精通している範囲と結合している。
プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
論文 参考訳(メタデータ) (2022-12-08T02:21:47Z) - Is the Elephant Flying? Resolving Ambiguities in Text-to-Image
Generative Models [64.58271886337826]
テキストから画像への生成モデルで生じるあいまいさについて検討する。
本稿では,ユーザから明確化を求めることによって,システムに与えられるプロンプトのあいまいさを軽減する枠組みを提案する。
論文 参考訳(メタデータ) (2022-11-17T17:12:43Z) - Discovering the Hidden Vocabulary of DALLE-2 [96.19666636109729]
DALLE-2は、不条理なプロンプトで画像を生成するために使用できる、隠れた語彙を持つように見える。
例えば、 textttApoploe vesrreaitais は鳥を意味し、 textttContarra ccetnxniams luryca tanniounons は虫や害虫を意味する。
論文 参考訳(メタデータ) (2022-06-01T01:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。