論文の概要: From Words to Code: Harnessing Data for Program Synthesis from Natural
Language
- arxiv url: http://arxiv.org/abs/2305.01598v1
- Date: Tue, 2 May 2023 16:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 13:39:37.266205
- Title: From Words to Code: Harnessing Data for Program Synthesis from Natural
Language
- Title(参考訳): 言葉からコードへ:自然言語からのプログラム合成のためのハーネスデータ
- Authors: Anirudh Khatry, Joyce Cahoon, Jordan Henkel, Shaleen Deep, Venkatesh
Emani, Avrilia Floratou, Sumit Gulwani, Vu Le, Mohammad Raza, Sherry Shi,
Mukul Singh, Ashish Tiwari
- Abstract要約: 大規模言語モデル(LLM)が生成するプログラムをリランクする手法であるセマンティック・リグレードを導入する。
また,LLMが生成する試料を高温と低温の両方で混合する温度混合も導入した。
トップ1の精度は最大45%、トップ3の精度は34%向上した。
- 参考スコア(独自算出の注目度): 12.665932954069476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating programs to correctly manipulate data is a difficult task, as the
underlying programming languages and APIs can be challenging to learn for many
users who are not skilled programmers. Large language models (LLMs) demonstrate
remarkable potential for generating code from natural language, but in the data
manipulation domain, apart from the natural language (NL) description of the
intended task, we also have the dataset on which the task is to be performed,
or the "data context". Existing approaches have utilized data context in a
limited way by simply adding relevant information from the input data into the
prompts sent to the LLM.
In this work, we utilize the available input data to execute the candidate
programs generated by the LLMs and gather their outputs. We introduce semantic
reranking, a technique to rerank the programs generated by LLMs based on three
signals coming the program outputs: (a) semantic filtering and well-formedness
based score tuning: do programs even generate well-formed outputs, (b) semantic
interleaving: how do the outputs from different candidates compare to each
other, and (c) output-based score tuning: how do the outputs compare to outputs
predicted for the same task. We provide theoretical justification for semantic
interleaving. We also introduce temperature mixing, where we combine samples
generated by LLMs using both high and low temperatures. We extensively evaluate
our approach in three domains, namely databases (SQL), data science (Pandas)
and business intelligence (Excel's Power Query M) on a variety of new and
existing benchmarks. We observe substantial gains across domains, with
improvements of up to 45% in top-1 accuracy and 34% in top-3 accuracy.
- Abstract(参考訳): 基礎となるプログラミング言語やAPIは、熟練したプログラマでない多くのユーザにとって学ぶことが難しいため、データを正しく操作するプログラムを作成することは難しい作業です。
大規模言語モデル(LLM)は、自然言語からコードを生成する素晴らしい可能性を示しているが、データ操作領域では、意図したタスクの自然言語(NL)記述とは別に、タスクを実行するデータセットや「データコンテキスト」も持っている。
既存のアプローチでは、LPMに送信されたプロンプトに入力データから関連する情報を単に追加することで、データコンテキストを限定的に活用している。
本研究では、利用可能な入力データを用いてLSMが生成した候補プログラムを実行し、その出力を収集する。
プログラムが出力する3つの信号に基づいてLLMが生成したプログラムをリランクするセマンティックリグレードを導入する。
(a)セマンティックフィルタリングと well-formedness に基づくスコアチューニング: プログラムは well-formed output を生成する。
(b)セマンティクス・インターリーブ:異なる候補からのアウトプットが互いにどのように比較されるか。
(c) 出力ベースのスコアチューニング: 出力を同じタスクで予測された出力と比較する方法。
セマンティックインターリービングの理論的正当化を提供する。
また,LLMが生成する試料を高温と低温の両方で混合する温度混合も導入した。
我々は、データベース(SQL)、データサイエンス(パンダ)、ビジネスインテリジェンス(ExcelのPower Query M)の3つの領域において、様々な新しいベンチマークと既存のベンチマークでアプローチを広く評価する。
top-1の精度は最大45%、top-3の精度は34%向上しました。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - Grounding Data Science Code Generation with Input-Output Specifications [32.07033683677839]
大規模言語モデル(LLM)は、最近、自然言語プロンプトからコードを生成する驚くべき能力を示した。
LLMは出力をNLプロンプトとI/O仕様の両方と整合させることが困難である。
I/O 仕様に対する LLM の微調整のための新しい手法である GIFT4Code を提案する。
論文 参考訳(メタデータ) (2024-02-12T21:32:49Z) - Reranking for Natural Language Generation from Logical Forms: A Study
based on Large Language Models [47.08364281023261]
大規模言語モデル(LLM)は、自然言語生成において印象的な能力を示している。
しかし、それらの出力品質は矛盾する可能性があり、論理形式(LF)から自然言語を生成する上での課題を提起する。
論文 参考訳(メタデータ) (2023-09-21T17:54:58Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。