論文の概要: What Prompts Don't Say: Understanding and Managing Underspecification in LLM Prompts
- arxiv url: http://arxiv.org/abs/2505.13360v2
- Date: Tue, 07 Oct 2025 01:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:20.38074
- Title: What Prompts Don't Say: Understanding and Managing Underspecification in LLM Prompts
- Title(参考訳): LLM Promptsにおける不特定性の理解と管理
- Authors: Chenyang Yang, Yike Shi, Qianou Ma, Michael Xieyang Liu, Christian Kästner, Tongshuang Wu,
- Abstract要約: 特定されていないプロンプトは、モデルにまたがったり変更を促したりする可能性の2倍であり、精度が20%を超えることもある。
本稿では,平均オーバーベースラインにおける性能を4.8%向上させる要求対応プロンプト最適化機構を提案する。
- 参考スコア(独自算出の注目度): 29.524016943865337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt underspecification is a common challenge when interacting with LLMs. In this paper, we present an in-depth analysis of this problem, showing that while LLMs can often infer unspecified requirements by default (41.1%), such behavior is fragile: Under-specified prompts are 2x as likely to regress across model or prompt changes, sometimes with accuracy drops exceeding 20%. This instability makes it difficult to reliably build LLM applications. Moreover, simply specifying all requirements does not consistently help, as models have limited instruction-following ability and requirements can conflict. Standard prompt optimizers likewise provide little benefit. To address these issues, we propose requirements-aware prompt optimization mechanisms that improve performance by 4.8% on average over baselines. We further advocate for a systematic process of proactive requirements discovery, evaluation, and monitoring to better manage prompt underspecification in practice.
- Abstract(参考訳): プロンプト不特定性はLLMと相互作用する際の共通の課題である。
本稿では,LLMが不特定要件をデフォルト(41.1%)で推論できる場合が多いが,そのような動作は脆弱であることを示す。
この不安定さにより、LLMアプリケーションを確実に構築することは困難である。
さらに、すべての要求を単に指定するだけでは、モデルが限られた命令フォロー能力を持ち、要求が矛盾する可能性があるため、一貫した助けにならない。
標準のプロンプトオプティマイザも、ほとんど利益を提供しない。
これらの問題に対処するため,要求対応のプロンプト最適化機構を提案する。
さらに,本研究は,事前要求の発見,評価,監視の体系的なプロセスを提案し,実際的な過小評価の迅速化を図っている。
関連論文リスト
- Uncovering Systematic Failures of LLMs in Verifying Code Against Natural Language Specifications [0.6813925418351435]
大規模言語モデル(LLM)はソフトウェア開発において不可欠なツールとなり、要求工学、コード生成、レビュータスクに広く利用されている。
本稿では,LLMが自然言語の要求に適合するかどうかを評価する上で,体系的に失敗していることを明らかにする。
以上の結果から,LCMは要件を満たすことのできないコード実装や潜在的な欠陥を含むコード実装を誤って分類することが多いことが判明した。
論文 参考訳(メタデータ) (2025-08-17T13:07:26Z) - Promptomatix: An Automatic Prompt Optimization Framework for Large Language Models [72.4723784999432]
LLM(Large Language Models)は、巧妙なプロンプトで最高の性能を発揮するが、プロンプトは手動で、一貫性がなく、非専門家にはアクセスできない。
Promptomatixは、手作業のチューニングやドメインの専門知識を必要とせずに、自然言語のタスク記述を高品質なプロンプトに変換する。
システムは、ユーザ意図を分析し、合成トレーニングデータを生成し、プロンプト戦略を選択し、コストを意識した目標を使用してプロンプトを洗練する。
論文 参考訳(メタデータ) (2025-07-17T18:18:20Z) - Grammar-Guided Evolutionary Search for Discrete Prompt Optimisation [63.97051732013936]
本稿では,2段階からなる離散的な自動最適化に対する進化的探索手法を提案する。
第1段階では、文法誘導型遺伝的プログラミングが実行され、プロンプト生成プログラムを合成する。
第2段階では、局所探索を用いて、最高のパフォーマンスプログラムの周辺を探索する。
論文 参考訳(メタデータ) (2025-07-14T14:34:15Z) - EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [64.70546873396624]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。
EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。
また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:39:55Z) - Hidden in Plain Sight: Reasoning in Underspecified and Misspecified Scenarios for Multimodal LLMs [28.913007638707427]
マルチモーダルな大規模言語モデル(MLLM)は、オープンエンドの現実世界の環境にますます多くデプロイされている。
本稿では,現在のMLLMが暗黙の推論シナリオをどのように扱うのかを体系的に分析する。
モデルは、必要な知覚と推論スキルを持っている場合でも、隠れた問題にしばしば遭遇しない。
論文 参考訳(メタデータ) (2025-05-30T21:47:28Z) - System Prompt Optimization with Meta-Learning [60.04718679054704]
本稿では,多様なユーザプロンプトに対して堅牢なシステムプロンプトを設計することを目的とした,バイレベルシステムプロンプト最適化の新たな課題を紹介する。
本稿では,複数のデータセットにまたがるさまざまなユーザプロンプトに対して最適化することで,システムプロンプトをメタラーニングするメタラーニングフレームワークを提案する。
5つの異なるドメインにまたがる14の未知のデータセットに対して実験を行い、このアプローチが多様なユーザプロンプトに効果的に一般化するシステムプロンプトを生成することを示す。
論文 参考訳(メタデータ) (2025-05-14T16:46:15Z) - Self-Supervised Prompt Optimization [16.06653117043314]
十分に設計されたプロンプトは、Large Language Model(LLM)推論能力の強化に不可欠である。
既存のプロンプト最適化手法は、地上の真実や人間による外部参照に大きく依存している。
本稿では,閉じたタスクとオープンなタスクの両方に効果的なプロンプトを発見する費用効率のよいフレームワークであるセルフ・スーパービジョン・プロンプト・最適化(SPO)を提案する。
論文 参考訳(メタデータ) (2025-02-07T17:45:16Z) - GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers [52.17222304851524]
本稿では,タスク固有の推論よりも勾配情報を直接組み込む新しいプロンプト最適化手法であるGReaTerを紹介する。
GReaTerはタスク損失勾配を利用して、オープンソースの軽量言語モデルのためのプロンプトの自己最適化を可能にする。
GReaTerは、従来の最先端のプロンプト最適化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-12-12T20:59:43Z) - IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization [19.200989737492595]
大規模言語モデル(LLM)は、ユーザの質問に答える上で大きな進歩を見せている。
LLMの出力の品質はプロンプト設計に大きく依存しており、優れたプロンプトによってLLMが非常に難しい問題に正しく答えられる可能性がある。
LLMの階層構造を提案し、まず、正確な指示と正確な単語を階層的に生成し、次に、このプロンプトを用いてユーザクエリの最終回答を生成する。
論文 参考訳(メタデータ) (2024-05-30T17:05:45Z) - Symbolic Prompt Program Search: A Structure-Aware Approach to Efficient Compile-Time Prompt Optimization [14.012833238074332]
本稿では,プロンプトプログラムのコンパイル時最適化を行うSAMMOを紹介する。
SAMMOは記号レベルでプロンプトプログラムを表しており、豊富な変換が可能である。
SAMMOは,(1)命令チューニング,(2)RAGパイプラインチューニング,(3)プロンプト圧縮において,従来の手法を一般化し,複雑なプロンプトの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:35:54Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - A Prompt Learning Framework for Source Code Summarization [19.24919436211323]
本稿では,PromptCSと呼ばれるコード要約のための効果的なプロンプト学習フレームワークを提案する。
PromptCSはプロンプトエージェントを訓練し、コード要約において大きな言語モデルの可能性を解き放つために連続的なプロンプトを生成する。
論文 参考訳(メタデータ) (2023-12-26T14:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。