論文の概要: The Butterfly Effect of Altering Prompts: How Small Changes and
Jailbreaks Affect Large Language Model Performance
- arxiv url: http://arxiv.org/abs/2401.03729v1
- Date: Mon, 8 Jan 2024 08:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 17:28:14.012779
- Title: The Butterfly Effect of Altering Prompts: How Small Changes and
Jailbreaks Affect Large Language Model Performance
- Title(参考訳): バターフライのプロンプト効果:小変化と脱獄が大規模言語モデルの性能に与える影響
- Authors: Abel Salinas and Fred Morstatter
- Abstract要約: プロンプトの終端に空間を追加するような最小の摂動でさえ、LSMはその答えを変える可能性があることを示す。
LLMでラベル付けされたデータに対して、XMLと一般的に使われているjailbreakの要求応答が破滅的な影響を生じる可能性があることがわかりました。
- 参考スコア(独自算出の注目度): 8.247766602551101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are regularly being used to label data across
many domains and for myriad tasks. By simply asking the LLM for an answer, or
``prompting,'' practitioners are able to use LLMs to quickly get a response for
an arbitrary task. This prompting is done through a series of decisions by the
practitioner, from simple wording of the prompt, to requesting the output in a
certain data format, to jailbreaking in the case of prompts that address more
sensitive topics. In this work, we ask: do variations in the way a prompt is
constructed change the ultimate decision of the LLM? We answer this using a
series of prompt variations across a variety of text classification tasks. We
find that even the smallest of perturbations, such as adding a space at the end
of a prompt, can cause the LLM to change its answer. Further, we find that
requesting responses in XML and commonly used jailbreaks can have cataclysmic
effects on the data labeled by LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くのドメインにわたるデータや無数のタスクに定期的に使われています。
単に LLM に答えを求めるだけで、'prompting'' の実践者は LLM を使って任意のタスクに対する応答を素早く得ることができる。
このプロンプトは、プロンプトの単純なワード化から特定のデータ形式の出力要求、よりセンシティブなトピックに対処するプロンプトの場合のジェイルブレイクに至るまで、実践者による一連の決定を通じて行われる。
プロンプトの構築方法のバリエーションは、llmの最終的な決定を変えるのでしょうか?
我々は、様々なテキスト分類タスクにまたがる一連のプロンプトなバリエーションを用いて、これに応える。
我々は、プロンプトの最後に空間を追加するなど、最小の摂動であっても、llmがその答えを変える可能性があることを発見した。
さらに,XML や一般的なjailbreak の要求応答が LLM でラベル付けされたデータにカタクリスティックな影響があることが判明した。
関連論文リスト
- PDL: A Declarative Prompt Programming Language [1.715270928578365]
本稿では,PDL(Prompt Declaration Language)を紹介する。
PDLは単純な宣言型データ指向言語であり、YAMLに基づいたプロンプトを前面に配置する。
大規模な言語モデル(LLM)やツールを呼び出すインタラクティブなアプリケーションの記述をサポートし、チャットボットやRAG、エージェントといった一般的なユースケースの実装を容易にする。
論文 参考訳(メタデータ) (2024-10-24T20:07:08Z) - Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning [68.57166425493283]
リファレンス・アウェア・インストラクション・コンストラクション(CRaFT)のための確実性表現型知識フローについて紹介する。
CRaFTは、応答の確実性を取り入れて、データを選択的にフィルタリングし、修正し、静的な競合を減らす。
オープンエンド質問応答と複数選択質問課題について広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-09T14:12:51Z) - CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:27:03Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。