論文の概要: The Butterfly Effect of Altering Prompts: How Small Changes and
Jailbreaks Affect Large Language Model Performance
- arxiv url: http://arxiv.org/abs/2401.03729v1
- Date: Mon, 8 Jan 2024 08:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 17:28:14.012779
- Title: The Butterfly Effect of Altering Prompts: How Small Changes and
Jailbreaks Affect Large Language Model Performance
- Title(参考訳): バターフライのプロンプト効果:小変化と脱獄が大規模言語モデルの性能に与える影響
- Authors: Abel Salinas and Fred Morstatter
- Abstract要約: プロンプトの終端に空間を追加するような最小の摂動でさえ、LSMはその答えを変える可能性があることを示す。
LLMでラベル付けされたデータに対して、XMLと一般的に使われているjailbreakの要求応答が破滅的な影響を生じる可能性があることがわかりました。
- 参考スコア(独自算出の注目度): 8.247766602551101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are regularly being used to label data across
many domains and for myriad tasks. By simply asking the LLM for an answer, or
``prompting,'' practitioners are able to use LLMs to quickly get a response for
an arbitrary task. This prompting is done through a series of decisions by the
practitioner, from simple wording of the prompt, to requesting the output in a
certain data format, to jailbreaking in the case of prompts that address more
sensitive topics. In this work, we ask: do variations in the way a prompt is
constructed change the ultimate decision of the LLM? We answer this using a
series of prompt variations across a variety of text classification tasks. We
find that even the smallest of perturbations, such as adding a space at the end
of a prompt, can cause the LLM to change its answer. Further, we find that
requesting responses in XML and commonly used jailbreaks can have cataclysmic
effects on the data labeled by LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くのドメインにわたるデータや無数のタスクに定期的に使われています。
単に LLM に答えを求めるだけで、'prompting'' の実践者は LLM を使って任意のタスクに対する応答を素早く得ることができる。
このプロンプトは、プロンプトの単純なワード化から特定のデータ形式の出力要求、よりセンシティブなトピックに対処するプロンプトの場合のジェイルブレイクに至るまで、実践者による一連の決定を通じて行われる。
プロンプトの構築方法のバリエーションは、llmの最終的な決定を変えるのでしょうか?
我々は、様々なテキスト分類タスクにまたがる一連のプロンプトなバリエーションを用いて、これに応える。
我々は、プロンプトの最後に空間を追加するなど、最小の摂動であっても、llmがその答えを変える可能性があることを発見した。
さらに,XML や一般的なjailbreak の要求応答が LLM でラベル付けされたデータにカタクリスティックな影響があることが判明した。
関連論文リスト
- Do LLMs Understand Ambiguity in Text? A Case Study in Open-world Question Answering [15.342415325821063]
自然言語の曖昧さは、オープンドメインの質問応答に使用される大規模言語モデル(LLM)に重大な課題をもたらす。
我々は,明示的曖昧化戦略の効果を計測することに集中して,市販のLLM性能と数発のLLM性能を比較した。
本研究では, 難解な問合せタスクにおいて, LLM性能を向上させるために, 簡単な, トレーニング不要, トークンレベルの曖昧さを効果的に活用できることを実証する。
論文 参考訳(メタデータ) (2024-11-19T10:27:26Z) - PDL: A Declarative Prompt Programming Language [1.715270928578365]
本稿では,PDL(Prompt Declaration Language)を紹介する。
PDLは単純な宣言型データ指向言語であり、YAMLに基づいたプロンプトを前面に配置する。
大規模な言語モデル(LLM)やツールを呼び出すインタラクティブなアプリケーションの記述をサポートし、チャットボットやRAG、エージェントといった一般的なユースケースの実装を容易にする。
論文 参考訳(メタデータ) (2024-10-24T20:07:08Z) - CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:27:03Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Question Answering as Programming for Solving Time-Sensitive Questions [84.07553016489769]
質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を担っている。
近年,Large Language Models (LLMs) は疑問に答える上で顕著な知性を示している。
これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。
我々は、$textbfQ$uestion $textbfA$rogrogeringタスクを再設定する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:35:16Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。