論文の概要: Spurious Prompts: Can Irrelevant Prompts Steer Large Language Models?
- arxiv url: http://arxiv.org/abs/2605.29678v1
- Date: Thu, 28 May 2026 09:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.151649
- Title: Spurious Prompts: Can Irrelevant Prompts Steer Large Language Models?
- Title(参考訳): Spurious Prompts: 重要でない Prompts は大きな言語モデルを安定させるか?
- Authors: Pawel Batorski, Abtin Pourhadi, Jerzy Sarosiek, Przemyslaw Spurek, Paul Swoboda,
- Abstract要約: 大規模言語モデルはプロンプトに非常に敏感である。
この感度は、通常、タスク関連命令、実演、推論の手がかりを通して研究される。
私たちは刺激的なプロンプトを呼び、彼らの驚くべき効果を示します。
- 参考スコア(独自算出の注目度): 17.170800056387044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are highly sensitive to prompts, but this sensitivity is usually studied through task-relevant instructions, demonstrations, or reasoning cues. In this paper, we study a different form of prompt sensitivity: whether prompts that are semantically unrelated to the task can nevertheless steer model behavior. We call them spurious prompts and show their surprising efficacy. We also propose a simple black-box search procedure for discovering them. Across reasoning and question-answering benchmarks, using models ranging from 0.8B to 27B parameters and spanning three model families, we show that spurious prompts can improve performance, often matching or outperforming standard prompting baselines and task-aware prompt optimization. We further show that they can steer models toward unintended behaviors, such as repeatedly selecting the first answer option, producing incorrect answers, returning an even, prime or small number without explicitly instructing the model to do so. These findings reveal a new kind of prompt sensitivity: LLMs can be systematically steered by prompts that are unrelated to the task they are asked to solve. Our code is available at https://github.com/Batorskq/spurious
- Abstract(参考訳): 大規模な言語モデルはプロンプトに非常に敏感であるが、この感度は通常、タスク関連命令、デモンストレーション、推論の方法を通じて研究される。
本稿では,タスクと意味的に無関係なプロンプトが,それでもステアモデル動作を制御できるかどうか,異なるタイプのプロンプト感度について検討する。
私たちは彼らを刺激的なプロンプトと呼び、彼らの驚くべき効果を示します。
また,簡単なブラックボックス探索手法を提案する。
推論と質問応答のベンチマークでは、0.8Bから27Bまでのパラメータと3つのモデルファミリにまたがるモデルを用いて、スプリアスプロンプトが性能を向上し、ベースラインとタスク認識プロンプトのプロンプトの標準的プロンプトにマッチまたは性能が向上することを示した。
さらに,第1の解答オプションを繰り返し選択したり,誤った解答を生成したり,偶数や素数や小数を返すなど,意図しない行動に向けてモデルを操ることができることを示す。
LLMは、解決するよう求められているタスクとは無関係なプロンプトによって、体系的に制御される。
私たちのコードはhttps://github.com/Batorskq/spuriousで利用可能です。
関連論文リスト
- Eliciting Human Preferences with Language Models [56.68637202313052]
言語モデル(LM)は、ラベル付き例や自然言語のプロンプトを使用してターゲットタスクを実行するように指示することができる。
タスク仕様プロセスのガイドには*LM自身を使うことを提案します。
我々は、メール検証、コンテンツレコメンデーション、道徳的推論の3つの領域でGATEを研究している。
論文 参考訳(メタデータ) (2023-10-17T21:11:21Z) - Demystifying Prompts in Language Models via Perplexity Estimation [109.59105230163041]
プロンプトのパフォーマンスは、モデルが含んでいる言語に精通している範囲と結合している。
プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
論文 参考訳(メタデータ) (2022-12-08T02:21:47Z) - Ask Me Anything: A simple strategy for prompting language models [24.294416731247427]
大規模言語モデル(LLM)は、単に自然言語のプロンプトを与えられただけである。
そこで本研究では,質問応答(QA)のプロンプトが,モデル出力を制限するプロンプトよりも優れていることを示す。
収集したプロンプトを適用して、入力の真のラベルに対していくつかのノイズの多い投票を行う。
プロンプトは、非常に異なる精度と複雑な依存関係を持つことができる。
論文 参考訳(メタデータ) (2022-10-05T17:59:45Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z) - Least-to-Most Prompting Enables Complex Reasoning in Large Language
Models [52.59923418570378]
本稿では, 難解な一般化の課題を克服するために, 最小限のプロンプト戦略を提案する。
最小限のプロンプトは、プロンプトで見られるものよりも難しい問題に一般化可能であることを示す。
SCANの解決を専門とする文献におけるニューラルシンボリックモデルは、15,000以上のサンプルを含むトレーニングセット全体をトレーニングする。
論文 参考訳(メタデータ) (2022-05-21T15:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。