論文の概要: Exploring the Curious Case of Code Prompts
- arxiv url: http://arxiv.org/abs/2304.13250v1
- Date: Wed, 26 Apr 2023 02:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 15:47:10.843927
- Title: Exploring the Curious Case of Code Prompts
- Title(参考訳): コードプロンプトの奇妙なケースを探る
- Authors: Li Zhang, Liam Dugan, Hainiu Xu, Chris Callison-Burch
- Abstract要約: 我々は、より広範なタスクの選択において、一般的なGPTモデル(davinci、code-davinci、text-davinci)のコードとテキストプロンプトを比較した。
コードプロンプトのスタイルは,すべてのタスクに対する性能に大きな影響を与え,テキスト命令の微調整により,コードプロンプトの相対的性能が向上することを示す。
- 参考スコア(独自算出の注目度): 22.333434626182257
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work has shown that prompting language models with code-like
representations of natural language leads to performance improvements on
structured reasoning tasks. However, such tasks comprise only a small subset of
all natural language tasks. In our work, we seek to answer whether or not
code-prompting is the preferred way of interacting with language models in
general. We compare code and text prompts across three popular GPT models
(davinci, code-davinci-002, and text-davinci-002) on a broader selection of
tasks (e.g., QA, sentiment, summarization) and find that with few exceptions,
code prompts do not consistently outperform text prompts. Furthermore, we show
that the style of code prompt has a large effect on performance for some but
not all tasks and that fine-tuning on text instructions leads to better
relative performance of code prompts.
- Abstract(参考訳): 近年の研究では、自然言語のコードライクな表現による言語モデルの実現が、構造化推論タスクのパフォーマンス向上につながっていることが示されている。
しかし、そのようなタスクはすべての自然言語タスクの小さなサブセットのみで構成されている。
本研究は,言語モデル全般と対話する上で,コードプロンプトが望ましい方法であるか否かを問うものである。
一般的な3つのgptモデル(davinci、code-davinci-002、text-davinci-002)に対して、より広いタスクの選択(qa、感情、要約など)でコードとテキストプロンプトを比較し、わずかな例外を除いて、コードプロンプトがテキストプロンプトを一貫して上回らないことを確認する。
さらに、コードプロンプトのスタイルは、すべてのタスクに対して性能に大きな影響を与え、テキスト命令の微調整により、コードプロンプトの相対的性能が向上することを示す。
関連論文リスト
- NoviCode: Generating Programs from Natural Language Utterances by Novices [59.71218039095155]
初心者非プログラマによるAPIと自然言語記述を入力とする新しいNLプログラミングタスクであるNoviCodeを提示する。
我々は、NoviCodeがコード合成領域における挑戦的なタスクであることを示し、非技術的命令から複雑なコードを生成することは、現在のText-to-Codeパラダイムを超えている。
論文 参考訳(メタデータ) (2024-07-15T11:26:03Z) - Code-Switched Language Identification is Harder Than You Think [69.63439391717691]
コードスイッチングは、文字と音声の通信において一般的な現象である。
CSコーパスの構築の応用について検討する。
タスクをもっと多くの言語に拡張することで、タスクをより現実的にします。
文レベルのマルチラベルタグ付け問題としてタスクを再構築し、より難易度の高いものにする。
論文 参考訳(メタデータ) (2024-02-02T15:38:47Z) - Code Representation Pre-training with Complements from Program
Executions [29.148208436656216]
テストケースで明らかになったプログラムの動的情報を調べ,それを補体としてコードの特徴表現に埋め込むために,FuzzPretrainを提案する。
FuzzyPretrainは、ソースコードやASTのみをトレーニングしたコード検索に対して、6%/9%のmAP改善を実現した。
論文 参考訳(メタデータ) (2023-09-04T01:57:22Z) - Code Prompting: a Neural Symbolic Method for Complex Reasoning in Large
Language Models [74.95486528482327]
コードプロンプト(code prompting)は、ゼロショットバージョンと少数ショットバージョンの両方を持ち、中間ステップとしてコードをトリガーするニューラルシンボルプロンプトである。
我々は,記号的推論と算術的推論を含む7つの広く使用されているベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-29T15:14:09Z) - Prompting with Pseudo-Code Instructions [12.166296720125187]
我々は、分類、QA、生成言語タスクにまたがる132のタスクに対して、擬似コードプロンプトのデータセットを作成する。
これらのプロンプトと自然言語の対応を利用して, BLOOM と CodeGen の2つの LLM ファミリ上での性能について検討する。
実験の結果, 擬似符号命令を用いることで, 分類作業におけるF1得点の平均7~16ポイント, ROUGE-L得点の12~38%の増加(絶対値)が得られた。
論文 参考訳(メタデータ) (2023-05-19T16:25:01Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Demystifying Prompts in Language Models via Perplexity Estimation [109.59105230163041]
プロンプトのパフォーマンスは、モデルが含んでいる言語に精通している範囲と結合している。
プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
論文 参考訳(メタデータ) (2022-12-08T02:21:47Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better
Language Models for Code Understanding [3.98345038769576]
フォーラムの投稿で、質問に対する最良の回答を予測するなどのタスクに基づいて、コード理解を評価するためのベンチマークのセットを導出します。
我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2021-09-15T17:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。