論文の概要: PromptPex: Automatic Test Generation for Language Model Prompts
- arxiv url: http://arxiv.org/abs/2503.05070v1
- Date: Fri, 07 Mar 2025 01:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:24:58.010637
- Title: PromptPex: Automatic Test Generation for Language Model Prompts
- Title(参考訳): PromptPex: 言語モデルプロンプトの自動テスト生成
- Authors: Reshabh K Sharma, Jonathan De Halleux, Shraddha Barke, Benjamin Zorn,
- Abstract要約: 大規模言語モデル(LLM)は多くのアプリケーションで使われている。
プロンプトは、入力を受け取り、出力を生成し、特定の機能を実行するという、従来のソフトウェアのように振る舞う。
しかし、プロンプトは多くの点で従来のコードと異なり、堅牢であることを保証するために新しいアプローチが必要である。
- 参考スコア(独自算出の注目度): 0.3999851878220877
- License:
- Abstract: Large language models (LLMs) are being used in many applications and prompts for these models are integrated into software applications as code-like artifacts. These prompts behave much like traditional software in that they take inputs, generate outputs, and perform some specific function. However, prompts differ from traditional code in many ways and require new approaches to ensure that they are robust. For example, unlike traditional software the output of a prompt depends on the AI model that interprets it. Also, while natural language prompts are easy to modify, the impact of updates is harder to predict. New approaches to testing, debugging, and modifying prompts with respect to the model running them are required. To address some of these issues, we developed PromptPex, an LLM-based tool to automatically generate and evaluate unit tests for a given prompt. PromptPex extracts input and output specifications from a prompt and uses them to generate diverse, targeted, and valid unit tests. These tests are instrumental in identifying regressions when a prompt is changed and also serve as a tool to understand how prompts are interpreted by different models. We use PromptPex to generate tests for eight benchmark prompts and evaluate the quality of the generated tests by seeing if they can cause each of four diverse models to produce invalid output. PromptPex consistently creates tests that result in more invalid model outputs than a carefully constructed baseline LLM-based test generator. Furthermore, by extracting concrete specifications from the input prompt, PromptPex allows prompt writers to clearly understand and test specific aspects of their prompts. The source code of PromptPex is available at https://github.com/microsoft/promptpex.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのアプリケーションで使われており、これらのモデルのプロンプトは、コードのようなアーティファクトとしてソフトウェアアプリケーションに統合されている。
これらのプロンプトは、入力を受け取り、出力を生成し、特定の機能を実行するという、従来のソフトウェアのように振る舞う。
しかし、プロンプトは多くの点で従来のコードと異なり、堅牢であることを保証するために新しいアプローチが必要である。
例えば、従来のソフトウェアとは異なり、プロンプトの出力はそれを解釈するAIモデルに依存する。
また、自然言語のプロンプトの変更は簡単ですが、更新の影響を予測するのは困難です。
テスト、デバッグ、修正のプロンプトに対する新しいアプローチが必要である。
これらの問題に対処するため、私たちは、与えられたプロンプトの単体テストを自動的に生成し評価するLLMベースのツールであるPromptPexを開発した。
PromptPexはプロンプトからインプットとアウトプットの仕様を抽出し、多様なターゲット、有効なユニットテストを生成する。
これらのテストは、プロンプトが変更されたときの回帰を識別するのに役立ち、異なるモデルによってプロンプトがどのように解釈されるかを理解するツールとしても役立ちます。
PromptPexを使って8つのベンチマークプロンプトのテストを生成し、生成したテストの品質を評価する。
PromptPexは、注意深く構築されたLCMベースのテストジェネレータよりも、より無効なモデル出力をもたらすテストを生成する。
さらに、入力プロンプトから具体的な仕様を抽出することにより、PromptPexは、プロンプトの特定の側面を明確に理解し、テストすることを可能にする。
PromptPexのソースコードはhttps://github.com/microsoft/promptpex.comで公開されている。
関連論文リスト
- Exploring Prompt Engineering Practices in the Enterprise [3.7882262667445734]
プロンプト(英: prompt)は、モデルから特定の振る舞いや出力を引き出すように設計された自然言語命令である。
特定の要求のある複雑なタスクやタスクに対して、迅速な設計は簡単ではない。
我々は、プロンプト編集行動のセッションを分析し、ユーザが反復したプロンプトの一部と、それらが行った変更の種類を分類する。
論文 参考訳(メタデータ) (2024-03-13T20:32:32Z) - On Meta-Prompting [17.34602431188454]
本稿では,カテゴリ理論に基づく理論的枠組みを提案し,プロンプトの一般化と記述を行う。
私たちは、モデル研究の2つの領域、創造性と思考でフレームワークをテストします。
論文 参考訳(メタデータ) (2023-12-11T17:46:44Z) - Prompting Code Interpreter to Write Better Unit Tests on Quixbugs
Functions [0.05657375260432172]
単体テストは、ソフトウェア工学において、記述されたコードの正確性と堅牢性をテストするために一般的に使用されるアプローチである。
本研究では,コードインタプリタが生成する単体テストの品質に及ぼす異なるプロンプトの影響について検討する。
生成した単体テストの品質は、提供されたプロンプトのマイナーな詳細の変更に敏感ではないことがわかった。
論文 参考訳(メタデータ) (2023-09-30T20:36:23Z) - Effective Prompt Extraction from Language Models [70.00099540536382]
本稿では,迅速な抽出攻撃の有効性を評価するための枠組みを提案する。
3つの異なるプロンプトと11の基盤となる大規模言語モデルによる実験では、単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
本フレームワークは,抽出したプロンプトがモデル幻覚ではなく実際の秘密プロンプトであるか否かを高精度に判定する。
論文 参考訳(メタデータ) (2023-07-13T16:15:08Z) - Optimizing Prompts for Text-to-Image Generation [97.61295501273288]
よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。
しかし、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。
本稿では,モデル優先のプロンプトにオリジナルのユーザ入力を自動的に適応するフレームワークであるpromise adaptを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:50:41Z) - Demystifying Prompts in Language Models via Perplexity Estimation [109.59105230163041]
プロンプトのパフォーマンスは、モデルが含んでいる言語に精通している範囲と結合している。
プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
論文 参考訳(メタデータ) (2022-12-08T02:21:47Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - IDPG: An Instance-Dependent Prompt Generation Method [58.45110542003139]
Prompt tuningは、モデルトレーニング段階で各入力インスタンスにタスク固有のプロンプトを追加する、新しい、効率的なNLP転送学習パラダイムである。
本稿では,各入力インスタンスのプロンプトを生成する条件付きプロンプト生成手法を提案する。
論文 参考訳(メタデータ) (2022-04-09T15:45:27Z) - Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified
Multilingual Prompt [98.26682501616024]
我々はUniPromptと呼ばれるすべての言語に対して統一的なプロンプトを使用する新しいモデルを提案する。
統一的なプロンプトは多言語 PLM による計算であり、言語に依存しない表現を生成する。
提案手法は、異なる言語間で強いベースラインを著しく上回ることができる。
論文 参考訳(メタデータ) (2022-02-23T11:57:52Z) - AutoPrompt: Eliciting Knowledge from Language Models with Automatically
Generated Prompts [46.03503882865222]
AutoPromptは、勾配誘導検索に基づいて、さまざまなタスクセットのプロンプトを作成する自動メソッドである。
マスク付き言語モデル(MLM)は,感情分析や自然言語推論を,追加パラメータや微調整を伴わずに行う能力を持つことを示す。
論文 参考訳(メタデータ) (2020-10-29T22:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。