論文の概要: Understanding the Prompt Sensitivity
- arxiv url: http://arxiv.org/abs/2604.18389v1
- Date: Mon, 20 Apr 2026 15:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.962258
- Title: Understanding the Prompt Sensitivity
- Title(参考訳): プロンプト感度の理解
- Authors: Yang Liu, Chenhui Chu,
- Abstract要約: プロンプト感度(英: Prompt sensitivity)とは、大きな言語モデルの出力が入力プロンプトの正確な語遣いに依存することを指す。
我々は,意味保存プロンプト,その勾配,およびモデルの次のトークンのログ確率の関係を解析する。
LLMは、小さなニューラルネットワークのように内部的に類似した入力をクラスタリングするのではなく、分散することを示す。
- 参考スコア(独自算出の注目度): 24.53996114318076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt sensitivity, which refers to how strongly the output of a large language model (LLM) depends on the exact wording of its input prompt, raises concerns among users about the LLM's stability and reliability. In this work, we consider LLMs as multivariate functions and perform a first-order Taylor expansion, thereby analyzing the relationship between meaning-preserving prompts, their gradients, and the log probabilities of the model's next token. We derive an upper bound on the difference between log probabilities using the Cauchy-Schwarz inequality. We show that LLMs do not internally cluster similar inputs like smaller neural networks do, but instead disperse them. This dispersing behavior leads to an excessively high upper bound on the difference of log probabilities between two meaning-preserving prompts, making it difficult to effectively reduce to 0. In our analysis, we also show which types of meaning-preserving prompt variants are more likely to introduce prompt sensitivity risks in LLMs. In addition, we demonstrate that the upper bound is strongly correlated with an existing prompt sensitivity metric, PromptSensiScore. Moreover, by analyzing the logit variance, we find that prompt templates typically exert a greater influence on logits than the questions themselves. Overall, our results provide a general interpretation for why current LLMs can be highly sensitive to prompts with the same meaning, offering crucial evidence for understanding the prompt sensitivity of LLMs. Code for experiments is available at https://github.com/ku-nlp/Understanding_the_Prompt_Sensitivity.
- Abstract(参考訳): プロンプト感度(Prompt sensitivity)とは、大きな言語モデルの出力が入力プロンプトの正確な語遣いに依存していることを示すもので、LLMの安定性と信頼性に対するユーザの懸念を提起する。
本研究では, LLM を多変量関数とみなし, 1次テイラー展開を行い, 意味保存プロンプト, 勾配, モデルの次のトークンのログ確率の関係を解析する。
コーシー=シュワルツの不等式を用いた対数確率差の上限を導出する。
LLMは、小さなニューラルネットワークのように内部的に類似した入力をクラスタリングするのではなく、分散することを示す。
この分散挙動は、2つの意味保存プロンプト間のログ確率の差に過度に高い上限をもたらすため、効果的に0に還元することは困難である。
また,本分析では,LLMにおいて,どの種類の意味保存的急激な変種が迅速な感受性リスクをもたらす可能性が示唆された。
さらに,上界は,既存のプロンプト感度測定値であるPromptSensiScoreと強く相関していることを示した。
さらに,ロジットのばらつきを解析した結果,プロンプトテンプレートは質問そのものよりもロジットに強い影響を与えることがわかった。
以上の結果から,現在のLSMが同じ意味を持つプロンプトに対して高感度である理由を概説し,LCMの迅速な感度を理解する上で重要な証拠を提供する。
実験用コードはhttps://github.com/ku-nlp/Understanding_the_Prompt_Sensitivityで公開されている。
関連論文リスト
- From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文 参考訳(メタデータ) (2026-04-01T11:40:12Z) - Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - Revisiting Prompt Sensitivity in Large Language Models for Text Classification: The Role of Prompt Underspecification [3.2059646106414967]
大型言語モデル (LLM) はゼロショットと少数ショットの分類器として広く使われている。
特定されていないプロンプトと特定の指示を提供するプロンプトの感度を研究・比較する。
命令プロンプトがそのような問題に苦しむのに対して、未特定プロンプトは、関連するトークンに対して高い性能のばらつきとロジット値の低下を示す。
論文 参考訳(メタデータ) (2026-02-04T07:59:28Z) - Visualizing token importance for black-box language models [48.747801442240565]
我々は,ブラックボックスの大規模言語モデル(LLM)を監査して,本運用環境にデプロイした場合に確実に動作させるという課題を考察する。
本稿では,各入力トークンに対する言語モデルの出力の感度を評価するために,分布ベース感性分析(DBSA)を提案する。
論文 参考訳(メタデータ) (2025-12-12T14:01:43Z) - Mapping from Meaning: Addressing the Miscalibration of Prompt-Sensitive Language Models [39.05891782057066]
大規模言語モデル(LLM)における即時感度について検討する。
パラフレージング摂動による「意味概念空間のサンプリング」は、精度を損なうことなく不確実性校正を改善することを示す。
論文 参考訳(メタデータ) (2025-10-19T22:28:57Z) - Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs [34.51801559719707]
ハイプロンプト感度は、大規模言語モデルのコアリミットとして広く受け入れられている。
広く報告されているハイプロンプト感度は、本当にLLMの本質的な弱点なのか、それとも、主に評価プロセスの成果物なのか?
即発感度の多くは,ログライクなスコアリングや厳密な回答マッチングなど,評価手法に起因していることがわかった。
論文 参考訳(メタデータ) (2025-09-01T21:38:28Z) - ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2024-10-16T09:38:13Z) - How are Prompts Different in Terms of Sensitivity? [50.67313477651395]
本稿では,関数の感度に基づく包括的即時解析を提案する。
出力に対する入力トークンの関連性に異なるプロンプトがどう影響するかを実証的に示すために、勾配に基づく唾液度スコアを使用する。
本稿では, 感度推定をペナルティ項として組み込んだ感度認識復号法を標準グリーディ復号法で導入する。
論文 参考訳(メタデータ) (2023-11-13T10:52:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。