論文の概要: POSIX: A Prompt Sensitivity Index For Large Language Models
- arxiv url: http://arxiv.org/abs/2410.02185v1
- Date: Fri, 4 Oct 2024 07:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:15:54.216738
- Title: POSIX: A Prompt Sensitivity Index For Large Language Models
- Title(参考訳): POSIX: 大規模言語モデルのための素早い感度指数
- Authors: Anwoy Chatterjee, H S V N S Kowndinya Renduchintala, Sumit Bhatia, Tanmoy Chakraborty,
- Abstract要約: 大型言語モデル(LLM)は驚くほど微妙なプロンプトに敏感である。
POSIXは新規なPrOmpt Sensitivity IndeXである。
- 参考スコア(独自算出の注目度): 22.288479270814484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their remarkable capabilities, Large Language Models (LLMs) are found to be surprisingly sensitive to minor variations in prompts, often generating significantly divergent outputs in response to minor variations in the prompts, such as spelling errors, alteration of wording or the prompt template. However, while assessing the quality of an LLM, the focus often tends to be solely on its performance on downstream tasks, while very little to no attention is paid to prompt sensitivity. To fill this gap, we propose POSIX - a novel PrOmpt Sensitivity IndeX as a reliable measure of prompt sensitivity, thereby offering a more comprehensive evaluation of LLM performance. The key idea behind POSIX is to capture the relative change in loglikelihood of a given response upon replacing the corresponding prompt with a different intent-preserving prompt. We provide thorough empirical evidence demonstrating the efficacy of POSIX in capturing prompt sensitivity and subsequently use it to measure and thereby compare prompt sensitivity of various open-source LLMs. We find that merely increasing the parameter count or instruction tuning does not necessarily reduce prompt sensitivity whereas adding some few-shot exemplars, even just one, almost always leads to significant decrease in prompt sensitivity. We also find that alterations to prompt template lead to the highest sensitivity in the case of MCQtype tasks, whereas paraphrasing results in the highest sensitivity in open-ended generation tasks. The code for reproducing our results is open-sourced at https://github.com/kowndinyarenduchintala/POSIX.
- Abstract(参考訳): その顕著な能力にもかかわらず、LLM(Large Language Models)はプロンプトの小さなバリエーションに驚くほど敏感であり、スペルエラー、単語の変更、プロンプトテンプレートなどのプロンプトの小さなバリエーションに応答して、かなり異なる出力を生成することが多い。
しかしながら、LLMの品質を評価する一方で、ダウンストリームタスクにおけるパフォーマンスのみに焦点をあてる傾向があり、センシティブに注意を払わないことが多い。
このギャップを埋めるため,新しいPrOmpt Sensitivity IndeXのPOSIXを提案する。
POSIXの背景にある重要な考え方は、対応するプロンプトを異なるインテント保存プロンプトに置き換えることによって、所定の応答のログ化の相対的な変化を捉えることである。
本研究はPOSIXの迅速な感度測定における有効性を実証する実験的な証拠を提供する。
パラメータ数の増加や命令のチューニングだけでは即発感度を低下させるわけではないが、数発の例を1回だけ追加しても、ほぼ常に即発感度を低下させる。
また,テンプレートの更新がMCQ型タスクでは最も感度が高いのに対して,パラフレーズ化はオープンな生成タスクでは最も感度が高いことが判明した。
結果の再現コードはhttps://github.com/kowndinyarenduchintala/POSIX.comで公開されている。
関連論文リスト
- ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2024-10-16T09:38:13Z) - What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering [8.019873464066308]
分類タスク,すなわち感度と一貫性の2つの指標を導入する。
感度はプロンプトの 言い換えによる予測の変化を測る
その代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。
論文 参考訳(メタデータ) (2024-06-18T06:59:24Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - GLaPE: Gold Label-agnostic Prompt Evaluation and Optimization for Large
Language Model [66.86722460851968]
我々は,ゴールドラベルへの依存を軽減するため,ゴールドラベルに依存しないプロンプト評価(GLaPE)を提案する。
GLaPEは,ゴールドラベルが存在しない場合でも,精度よく信頼性の高い評価を行う。
一般的な6つの推論タスクにおいて、GLaPEベースのプロンプト最適化により、精度ベースのプロンプトに匹敵する効果的なプロンプトが得られる。
論文 参考訳(メタデータ) (2024-02-04T08:57:54Z) - How are Prompts Different in Terms of Sensitivity? [50.67313477651395]
本稿では,関数の感度に基づく包括的即時解析を提案する。
出力に対する入力トークンの関連性に異なるプロンプトがどう影響するかを実証的に示すために、勾配に基づく唾液度スコアを使用する。
本稿では, 感度推定をペナルティ項として組み込んだ感度認識復号法を標準グリーディ復号法で導入する。
論文 参考訳(メタデータ) (2023-11-13T10:52:01Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Analyzing Chain-of-Thought Prompting in Large Language Models via
Gradient-based Feature Attributions [10.621564997491808]
チェーン・オブ・シークレット(CoT)のプロンプトは、大規模言語モデルの精度を実証的に改善することが示されている。
我々は、CoTプロンプトが特定の入力トークンに割り当てる相対的重要性に影響を及ぼすかどうかを検討する。
以上の結果から,CoTプロンプトは意味的関連トークンによるサリエンシスコアの規模を増大させるものではないが,サリエンシスコアのロバスト性を高め,モデル出力の摂動や変動に疑問を投げかけることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T08:51:30Z) - Demystifying Prompts in Language Models via Perplexity Estimation [109.59105230163041]
プロンプトのパフォーマンスは、モデルが含んでいる言語に精通している範囲と結合している。
プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
論文 参考訳(メタデータ) (2022-12-08T02:21:47Z) - Sensitivity as a Complexity Measure for Sequence Classification Tasks [24.246784593571626]
標準のシーケンス分類法は低感度関数の学習に偏っているため、高感度を必要とするタスクがより困難である。
15のNLPタスクで感度を推定し、単純なテキスト分類タスクよりもGLUEで収集された挑戦的なタスクで感度が高いことを発見した。
論文 参考訳(メタデータ) (2021-04-21T03:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。