論文の概要: Revisiting Prompt Sensitivity in Large Language Models for Text Classification: The Role of Prompt Underspecification
- arxiv url: http://arxiv.org/abs/2602.04297v1
- Date: Wed, 04 Feb 2026 07:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.429263
- Title: Revisiting Prompt Sensitivity in Large Language Models for Text Classification: The Role of Prompt Underspecification
- Title(参考訳): テキスト分類のための大規模言語モデルにおけるプロンプト感性の再検討:プロンプト不特定性の役割
- Authors: Branislav Pecher, Michal Spiegel, Robert Belanec, Jan Cegin,
- Abstract要約: 大型言語モデル (LLM) はゼロショットと少数ショットの分類器として広く使われている。
特定されていないプロンプトと特定の指示を提供するプロンプトの感度を研究・比較する。
命令プロンプトがそのような問題に苦しむのに対して、未特定プロンプトは、関連するトークンに対して高い性能のばらつきとロジット値の低下を示す。
- 参考スコア(独自算出の注目度): 3.2059646106414967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are widely used as zero-shot and few-shot classifiers, where task behaviour is largely controlled through prompting. A growing number of works have observed that LLMs are sensitive to prompt variations, with small changes leading to large changes in performance. However, in many cases, the investigation of sensitivity is performed using underspecified prompts that provide minimal task instructions and weakly constrain the model's output space. In this work, we argue that a significant portion of the observed prompt sensitivity can be attributed to prompt underspecification. We systematically study and compare the sensitivity of underspecified prompts and prompts that provide specific instructions. Utilising performance analysis, logit analysis, and linear probing, we find that underspecified prompts exhibit higher performance variance and lower logit values for relevant tokens, while instruction-prompts suffer less from such problems. However, linear probing analysis suggests that the effects of prompt underspecification have only a marginal impact on the internal LLM representations, instead emerging in the final layers. Overall, our findings highlight the need for more rigour when investigating and mitigating prompt sensitivity.
- Abstract(参考訳): 大規模言語モデル(LLM)はゼロショットと少数ショットの分類器として広く使われており、タスクの振る舞いはプロンプトによって制御される。
多くの研究で、LCMは変化の速さに敏感であり、小さな変化が性能に大きな変化をもたらすことが報告されている。
しかし、多くの場合、最小限のタスク命令を提供し、モデルの出力空間を弱く制約する不特定なプロンプトを用いて感度の調査を行う。
本研究は、観察された刺激感受性のかなりの部分は、過小評価によるものであると論じる。
特定されていないプロンプトと特定の指示を提供するプロンプトの感度を体系的に研究し比較する。
性能解析,ロジット解析,線形探索を用いて,不特定プロンプトは関連するトークンに対して高い性能バラツキと低いロジット値を示すが,命令プロンプトはそのような問題に悩まされる。
しかし、線形探索解析により、プロンプト不特定性の影響は内部のLDM表現に限界的な影響しか与えず、最終層に現れることが示唆された。
以上の結果から,急激な敏感度を調査・緩和する際の厳密さの必要性が浮き彫りになった。
関連論文リスト
- Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - Do Prompts Reshape Representations? An Empirical Study of Prompting Effects on Embeddings [24.17559821473242]
本研究では,プロンプトと内部表現の質の関係について検討する。
我々の発見は、より関連性の高いプロンプトが必ずしもより良い表現につながるという仮定に挑戦する。
論文 参考訳(メタデータ) (2025-10-22T15:43:40Z) - ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2024-10-16T09:38:13Z) - POSIX: A Prompt Sensitivity Index For Large Language Models [22.288479270814484]
大型言語モデル(LLM)は驚くほど微妙なプロンプトに敏感である。
POSIXは新規なPrOmpt Sensitivity IndeXである。
論文 参考訳(メタデータ) (2024-10-03T04:01:14Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - How You Prompt Matters! Even Task-Oriented Constraints in Instructions Affect LLM-Generated Text Detection [39.254432080406346]
タスク指向の制約 -- 命令に自然に含まれ、検出回避とは無関係な制約 -- でさえ、既存の強力な検出器は検出性能に大きなばらつきを持つ。
実験の結果,命令を複数回生成したり,命令を言い換えたりすることで,命令によって生成されたテキストの標準偏差(SD)が有意に大きい(SDは14.4F1スコアまで)ことがわかった。
論文 参考訳(メタデータ) (2023-11-14T18:32:52Z) - How are Prompts Different in Terms of Sensitivity? [50.67313477651395]
本稿では,関数の感度に基づく包括的即時解析を提案する。
出力に対する入力トークンの関連性に異なるプロンプトがどう影響するかを実証的に示すために、勾配に基づく唾液度スコアを使用する。
本稿では, 感度推定をペナルティ項として組み込んだ感度認識復号法を標準グリーディ復号法で導入する。
論文 参考訳(メタデータ) (2023-11-13T10:52:01Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Demystifying Prompts in Language Models via Perplexity Estimation [109.59105230163041]
プロンプトのパフォーマンスは、モデルが含んでいる言語に精通している範囲と結合している。
プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
論文 参考訳(メタデータ) (2022-12-08T02:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。