論文の概要: PromptSet: A Programmer's Prompting Dataset
- arxiv url: http://arxiv.org/abs/2402.16932v1
- Date: Mon, 26 Feb 2024 16:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:03:54.340134
- Title: PromptSet: A Programmer's Prompting Dataset
- Title(参考訳): PromptSet: プログラマのプロンプトデータセット
- Authors: Kaiser Pister, Dhruba Jyoti Paul, Patrick Brophy, Ishan Joshi
- Abstract要約: PromptSetという,オープンソースのPythonプログラムで使用される61,000以上のユニークな開発者プロンプトを備えた,新しいデータセットを提示する。
このデータセット上で解析を行い、プロンプトのための静的linterの概念を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of capabilities expressed by large language models has been quickly
followed by the integration of the same complex systems into application level
logic. Algorithms, programs, systems, and companies are built around structured
prompting to black box models where the majority of the design and
implementation lies in capturing and quantifying the `agent mode'. The standard
way to shape a closed language model is to prime it for a specific task with a
tailored prompt, often initially handwritten by a human. The textual prompts
co-evolve with the codebase, taking shape over the course of project life as
artifacts which must be reviewed and maintained, just as the traditional code
files might be. Unlike traditional code, we find that prompts do not receive
effective static testing and linting to prevent runtime issues. In this work,
we present a novel dataset called PromptSet, with more than 61,000 unique
developer prompts used in open source Python programs. We perform analysis on
this dataset and introduce the notion of a static linter for prompts. Released
with this publication is a HuggingFace dataset and a Github repository to
recreate collection and processing efforts, both under the name
\texttt{pisterlabs/promptset}.
- Abstract(参考訳): 大規模言語モデルによって表現される能力の台頭は、アプリケーションレベルのロジックに同じ複雑なシステムを統合することで急速に続いている。
アルゴリズム、プログラム、システム、企業は、設計と実装の大半が'エージェントモード'のキャプチャと定量化に費やされているブラックボックスモデルに促されるように構造化されている。
クローズド言語モデルを形作る標準的な方法は、それを特定のタスクのために調整されたプロンプトで素付けることである。
テキストはコードベースとの共同開発を促すもので,従来のコードファイルと同じように,レビューやメンテナンスが必要なアーティファクトとして,プロジェクトのライフサイクルを形作るものだ。
従来のコードとは異なり、プロンプトは実行時の問題を防ぐために効果的な静的テストやリンティングを受けない。
本稿では,オープンソースのPythonプログラムで使用する61,000以上のユニークな開発者プロンプトを備えた,PromptSetという新しいデータセットを提案する。
このデータセットの解析を行い,プロンプトに対して静的linterの概念を導入する。
このパブリッシャとともにリリースされたhughingfaceデータセットとgithubリポジトリは、どちらも \texttt{pisterlabs/promptset}という名前で、コレクションと処理の作業を再現する。
関連論文リスト
- Statically Contextualizing Large Language Models with Typed Holes [4.180458188910334]
大規模言語モデル(LLM)は、プログラム合成のランドスケープを形変えた。
LLMは適切なコンテキストを持たないため、しばしば壊れたコードを幻覚させる。
本稿では,言語の種類と結合構造との密接な統合が,この文脈化問題に対処できることを実証する。
論文 参考訳(メタデータ) (2024-09-02T03:29:00Z) - Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。
これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。
各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文 参考訳(メタデータ) (2024-06-17T14:58:29Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Repository-Level Prompt Generation for Large Language Models of Code [28.98699307030983]
本稿では,提案手法を用いてサンプル固有のプロンプトを生成するフレームワークを提案する。
プロンプトプロポーザルはリポジトリ全体からコンテキストを取ります。
我々は,Google Codeアーカイブから取得したコードリポジトリを用いて,単行コード自動補完のタスクについて実験を行った。
論文 参考訳(メタデータ) (2022-06-26T10:51:25Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z) - Learning How to Ask: Querying LMs with Mixtures of Soft Prompts [33.43689407735244]
自然言語プロンプトは、最近、事前訓練された言語モデルを他のaiタスクを実行するために使用される。
勾配降下による学習促進の考え方を探求する。
それぞれのタスクに対して、プロンプトの混合を最適化し、どのプロンプトが最も効果的か、それらをアサンブルするかを学ぶ。
論文 参考訳(メタデータ) (2021-04-14T02:56:14Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。