論文の概要: Natural Language to Code Generation in Interactive Data Science
Notebooks
- arxiv url: http://arxiv.org/abs/2212.09248v1
- Date: Mon, 19 Dec 2022 05:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:59:26.496152
- Title: Natural Language to Code Generation in Interactive Data Science
Notebooks
- Title(参考訳): 対話型データサイエンスノートブックにおける自然言語からコード生成
- Authors: Pengcheng Yin, Wen-Ding Li, Kefan Xiao, Abhishek Rao, Yeming Wen,
Kensen Shi, Joshua Howland, Paige Bailey, Michele Catasta, Henryk
Michalewski, Alex Polozov, Charles Sutton
- Abstract要約: データサイエンスノートブックのパンダスデータ分析フレームワークを用いて1082のコード生成問題のベンチマークであるARCADEを構築した。
我々は,Python 計算ノートブック用の 62B コード言語モデル PaChiNCo を開発した。
- 参考スコア(独自算出の注目度): 35.621936471322385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computational notebooks, such as Jupyter notebooks, are interactive computing
environments that are ubiquitous among data scientists to perform data
wrangling and analytic tasks. To measure the performance of AI pair programmers
that automatically synthesize programs for those tasks given natural language
(NL) intents from users, we build ARCADE, a benchmark of 1082 code generation
problems using the pandas data analysis framework in data science notebooks.
ARCADE features multiple rounds of NL-to-code problems from the same notebook.
It requires a model to understand rich multi-modal contexts, such as existing
notebook cells and their execution states as well as previous turns of
interaction. To establish a strong baseline on this challenging task, we
develop PaChiNCo, a 62B code language model (LM) for Python computational
notebooks, which significantly outperforms public code LMs. Finally, we explore
few-shot prompting strategies to elicit better code with step-by-step
decomposition and NL explanation, showing the potential to improve the
diversity and explainability of model predictions.
- Abstract(参考訳): jupyter notebooksのような計算ノートブックは、データサイエンティストがデータラングリングや分析タスクを実行するためにユビキタスなインタラクティブなコンピューティング環境である。
ユーザから与えられた自然言語(NL)目的のタスクを自動的に合成するAIペアプログラマのパフォーマンスを測定するために,データサイエンスノートブックのパンダスデータ分析フレームワークを用いて,1082のコード生成問題のベンチマークであるARCADEを構築した。
ARCADEは、同じノートブックから複数のNL-to-code問題に対処する。
既存のノートブックセルやその実行状態といったリッチなマルチモーダルなコンテキストや、以前の対話の変遷を理解するモデルが必要である。
この課題に対する強力なベースラインを確立するために、我々は、python計算ノートブック用の62bのコード言語モデル(lm)であるpachincoを開発しました。
最後に,ステップバイステップの分解とnlによる説明によってよりよいコードを導出する,少数のプロンプト戦略を検討し,モデル予測の多様性と説明可能性を改善する可能性を示す。
関連論文リスト
- Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - The Consensus Game: Language Model Generation via Equilibrium Search [73.51411916625032]
言語モデル復号のための学習不要なゲーム理論を新たに導入する。
本手法では,正規化不完全情報シーケンシャルシグナリングゲームとして,言語モデルの復号化を行う。
EQUILIBRium-RANKINGをLLaMA-7Bに適用すると、より大型のLLaMA-65BとPaLM-540Bより優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-13T14:27:21Z) - Pair Programming with Large Language Models for Sampling and Estimation
of Copulas [0.0]
モンテカルロシミュレーションに基づくコプラによる依存モデリングの例は、最先端の大規模言語モデル(LLM)を用いて開発されている。
この中には、自然言語でのChatGPTとのインタラクションや数学的形式の使用が含まれており、PythonとRで動作するコードの生成につながっている。
注意深い急進的なエンジニアリングを通じて、ChatGPTが生成した成功解と失敗解を分離し、その結果、関連する長所と短所の包括的リストを得る。
論文 参考訳(メタデータ) (2023-03-31T15:02:48Z) - A Conversational Paradigm for Program Synthesis [110.94409515865867]
本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。
私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。
本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
論文 参考訳(メタデータ) (2022-03-25T06:55:15Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Data-to-text Generation with Macro Planning [61.265321323312286]
本稿では,マクロ計画段階のニューラルモデルと,従来の手法を連想させる生成段階を提案する。
提案手法は, 自動評価と人的評価の両面で, 競争ベースラインを上回っている。
論文 参考訳(メタデータ) (2021-02-04T16:32:57Z) - Automated Source Code Generation and Auto-completion Using Deep
Learning: Comparing and Discussing Current Language-Model-Related Approaches [0.0]
本稿では、異なるディープラーニングアーキテクチャを比較して、プログラミングコードに基づく言語モデルを作成し、使用する。
それぞれのアプローチのさまざまな長所と短所と、言語モデルを評価したり、実際のプログラミングコンテキストでそれらを適用するためのギャップについて論じる。
論文 参考訳(メタデータ) (2020-09-16T15:17:04Z) - Leveraging Code Generation to Improve Code Retrieval and Summarization
via Dual Learning [18.354352985591305]
コード要約は、ソースコードスニペットが与えられた短い自然言語記述を生成し、コード検索は、自然言語クエリが与えられた関連するソースコードを取得する。
最近の研究は、これらの2つのタスクを組み合わせてパフォーマンスを改善している。
本稿では,新たなコード生成タスクを導入することによって,2つのタスクのエンド・ツー・エンド・モデルを提案する。
論文 参考訳(メタデータ) (2020-02-24T12:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。