論文の概要: ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs
- arxiv url: http://arxiv.org/abs/2410.12405v1
- Date: Wed, 16 Oct 2024 09:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:46.868846
- Title: ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs
- Title(参考訳): ProSA: LLMのプロンプト感度の評価と理解
- Authors: Jingming Zhuo, Songyang Zhang, Xinyu Fang, Haodong Duan, Dahua Lin, Kai Chen,
- Abstract要約: ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
- 参考スコア(独自算出の注目度): 72.13489820420726
- License:
- Abstract: Large language models (LLMs) have demonstrated impressive capabilities across various tasks, but their performance is highly sensitive to the prompts utilized. This variability poses challenges for accurate assessment and user satisfaction. Current research frequently overlooks instance-level prompt variations and their implications on subjective evaluations. To address these shortcomings, we introduce ProSA, a framework designed to evaluate and comprehend prompt sensitivity in LLMs. ProSA incorporates a novel sensitivity metric, PromptSensiScore, and leverages decoding confidence to elucidate underlying mechanisms. Our extensive study, spanning multiple tasks, uncovers that prompt sensitivity fluctuates across datasets and models, with larger models exhibiting enhanced robustness. We observe that few-shot examples can alleviate this sensitivity issue, and subjective evaluations are also susceptible to prompt sensitivities, particularly in complex, reasoning-oriented tasks. Furthermore, our findings indicate that higher model confidence correlates with increased prompt robustness. We believe this work will serve as a helpful tool in studying prompt sensitivity of LLMs. The project is released at: https://github.com/open-compass/ProSA .
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その性能は使用したプロンプトに非常に敏感である。
この多様性は、正確な評価とユーザの満足度に課題をもたらします。
現在の研究では、インスタンスレベルのプロンプト変動とその主観的評価への影響をしばしば見落としている。
これらの欠点に対処するため,我々はPLMの迅速な感度の評価と理解を目的としたフレームワークであるProSAを紹介する。
ProSAは、新しい感度測定基準であるPromptSensiScoreを導入し、デコード信頼を利用して基盤となるメカニズムを解明する。
複数のタスクにまたがる我々の広範な研究により、データセットやモデルに敏感さが急速に変動することが明らかとなり、より大きなモデルでは堅牢性が向上した。
この感度問題を緩和できる事例は少ないが、主観的評価は、特に複雑で推論指向のタスクにおいて、感性を促進する可能性がある。
さらに, モデル信頼性の向上は, 迅速な堅牢性の向上と相関していることがわかった。
我々は,この研究がLDMの迅速な感度の研究に役立つと信じている。
このプロジェクトは、https://github.com/open-compass/ProSA でリリースされている。
関連論文リスト
- POSIX: A Prompt Sensitivity Index For Large Language Models [22.288479270814484]
大型言語モデル(LLM)は驚くほど微妙なプロンプトに敏感である。
POSIXは新規なPrOmpt Sensitivity IndeXである。
論文 参考訳(メタデータ) (2024-10-03T04:01:14Z) - Do Large Language Models Possess Sensitive to Sentiment? [18.88126980975737]
大規模言語モデル(LLM)は、最近、言語理解における異常な能力を示した。
本稿では,LLMがテキストモーダルの感情を検知し,反応する能力について検討する。
論文 参考訳(メタデータ) (2024-09-04T01:40:20Z) - How Susceptible are LLMs to Influence in Prompts? [6.644673474240519]
大規模言語モデル(LLM)は、追加のコンテキストを含むプロンプトに非常に敏感である。
我々は,複数の質問に対するLLMの応答が,他のモデルからの予測と説明を含む場合,どのように変化するかを検討する。
本研究は, モデルが強い影響を受けており, 説明が提供されると, 説明の質に関わらず, ゆがみが生じることを示した。
論文 参考訳(メタデータ) (2024-08-17T17:40:52Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文 参考訳(メタデータ) (2024-06-22T23:26:07Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - LLMs for Targeted Sentiment in News Headlines: Exploring the Descriptive-Prescriptive Dilemma [0.0]
本稿では,ニュース見出しの感情分析のために,最先端のLCMと微調整エンコーダモデルの精度を比較した。
我々は、ゼロショットから精巧な数ショットのプロンプトまで、プロンプトの規範性によってパフォーマンスがどのように影響を受けるかを分析する。
LLMは記述的データセット上で微調整エンコーダよりも優れており、キャリブレーションやF1スコアは記述性の向上とともに一般的に改善されている。
論文 参考訳(メタデータ) (2024-03-01T10:10:34Z) - How are Prompts Different in Terms of Sensitivity? [50.67313477651395]
本稿では,関数の感度に基づく包括的即時解析を提案する。
出力に対する入力トークンの関連性に異なるプロンプトがどう影響するかを実証的に示すために、勾配に基づく唾液度スコアを使用する。
本稿では, 感度推定をペナルティ項として組み込んだ感度認識復号法を標準グリーディ復号法で導入する。
論文 参考訳(メタデータ) (2023-11-13T10:52:01Z) - Balancing Robustness and Sensitivity using Feature Contrastive Learning [95.86909855412601]
堅牢性を促進する方法は、希少なパターンや表現不足パターンに対するモデルの感受性を損なう可能性がある。
本稿では,より高次文脈的有用性を持つ機能に対して,モデルにより敏感な特徴を与える機能コントラスト学習(FCL)を提案する。
論文 参考訳(メタデータ) (2021-05-19T20:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。