論文の概要: What Prompts Don't Say: Understanding and Managing Underspecification in LLM Prompts
- arxiv url: http://arxiv.org/abs/2505.13360v1
- Date: Mon, 19 May 2025 17:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.758445
- Title: What Prompts Don't Say: Understanding and Managing Underspecification in LLM Prompts
- Title(参考訳): LLM Promptsにおける不特定性の理解と管理
- Authors: Chenyang Yang, Yike Shi, Qianou Ma, Michael Xieyang Liu, Christian Kästner, Tongshuang Wu,
- Abstract要約: 特定されていないプロンプトは、モデルよりも2倍、あるいは、変更のプロンプトの傾向が強く、時には精度が20%以上低下する。
本稿では,要求を意識した新しいプロンプト最適化機構を導入し,平均的なベースライン上における性能を4.8%向上させる。
我々は、迅速な過小評価を効果的に管理するには、積極的な要求発見、評価、監視を含むより広範なプロセスが必要であると想定している。
- 参考スコア(独自算出の注目度): 34.97822061171827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building LLM-powered software requires developers to communicate their requirements through natural language, but developer prompts are frequently underspecified, failing to fully capture many user-important requirements. In this paper, we present an in-depth analysis of prompt underspecification, showing that while LLMs can often (41.1%) guess unspecified requirements by default, such behavior is less robust: Underspecified prompts are 2x more likely to regress over model or prompt changes, sometimes with accuracy drops by more than 20%. We then demonstrate that simply adding more requirements to a prompt does not reliably improve performance, due to LLMs' limited instruction-following capabilities and competing constraints, and standard prompt optimizers do not offer much help. To address this, we introduce novel requirements-aware prompt optimization mechanisms that can improve performance by 4.8% on average over baselines that naively specify everything in the prompt. Beyond prompt optimization, we envision that effectively managing prompt underspecification requires a broader process, including proactive requirements discovery, evaluation, and monitoring.
- Abstract(参考訳): LLMベースのソフトウェアを構築するには、開発者は自然言語で要求を伝達する必要があるが、開発者のプロンプトは不明確であり、多くのユーザにとって重要な要件を完全に把握することができない。
本稿では, LLM が既定で不特定要件を推定できる場合 (41.1%) が多いが, そのような動作はより堅牢であることを示す。
LLMの限られた命令追従能力と競合する制約のため、プロンプトにより多くの要件を追加するだけでは性能が確実に向上しない。
そこで本研究では,要求に配慮したプロンプト最適化機構を導入し,プロンプト内の全てを直感的に指定する平均オーバーラインにおいて,パフォーマンスを4.8%向上させることができる。
迅速な最適化以外にも、プロアクティブな要求発見、評価、監視を含む、迅速な過小評価を効果的に管理するには、より広範なプロセスが必要である、と私たちは考えています。
関連論文リスト
- System Prompt Optimization with Meta-Learning [60.04718679054704]
本稿では,多様なユーザプロンプトに対して堅牢なシステムプロンプトを設計することを目的とした,バイレベルシステムプロンプト最適化の新たな課題を紹介する。
本稿では,複数のデータセットにまたがるさまざまなユーザプロンプトに対して最適化することで,システムプロンプトをメタラーニングするメタラーニングフレームワークを提案する。
5つの異なるドメインにまたがる14の未知のデータセットに対して実験を行い、このアプローチが多様なユーザプロンプトに効果的に一般化するシステムプロンプトを生成することを示す。
論文 参考訳(メタデータ) (2025-05-14T16:46:15Z) - Self-Supervised Prompt Optimization [16.06653117043314]
十分に設計されたプロンプトは、Large Language Model(LLM)推論能力の強化に不可欠である。
既存のプロンプト最適化手法は、地上の真実や人間による外部参照に大きく依存している。
本稿では,閉じたタスクとオープンなタスクの両方に効果的なプロンプトを発見する費用効率のよいフレームワークであるセルフ・スーパービジョン・プロンプト・最適化(SPO)を提案する。
論文 参考訳(メタデータ) (2025-02-07T17:45:16Z) - GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers [52.17222304851524]
本稿では,タスク固有の推論よりも勾配情報を直接組み込む新しいプロンプト最適化手法であるGReaTerを紹介する。
GReaTerはタスク損失勾配を利用して、オープンソースの軽量言語モデルのためのプロンプトの自己最適化を可能にする。
GReaTerは、従来の最先端のプロンプト最適化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-12-12T20:59:43Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization [19.200989737492595]
大規模言語モデル(LLM)は、ユーザの質問に答える上で大きな進歩を見せている。
LLMの出力の品質はプロンプト設計に大きく依存しており、優れたプロンプトによってLLMが非常に難しい問題に正しく答えられる可能性がある。
LLMの階層構造を提案し、まず、正確な指示と正確な単語を階層的に生成し、次に、このプロンプトを用いてユーザクエリの最終回答を生成する。
論文 参考訳(メタデータ) (2024-05-30T17:05:45Z) - Symbolic Prompt Program Search: A Structure-Aware Approach to Efficient Compile-Time Prompt Optimization [14.012833238074332]
本稿では,プロンプトプログラムのコンパイル時最適化を行うSAMMOを紹介する。
SAMMOは記号レベルでプロンプトプログラムを表しており、豊富な変換が可能である。
SAMMOは,(1)命令チューニング,(2)RAGパイプラインチューニング,(3)プロンプト圧縮において,従来の手法を一般化し,複雑なプロンプトの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。