Fugu-MT 論文翻訳(概要): Contextualized Data-Wrangling Code Generation in Computational Notebooks

論文の概要: Contextualized Data-Wrangling Code Generation in Computational Notebooks

arxiv url: http://arxiv.org/abs/2409.13551v1
Date: Fri, 20 Sep 2024 14:49:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 06:30:58.136827
Title: Contextualized Data-Wrangling Code Generation in Computational Notebooks
Title（参考訳）: 計算ノートにおけるコンテクスト化されたデータ記述コード生成
Authors: Junjie Huang, Daya Guo, Chenglong Wang, Jiazhen Gu, Shuai Lu, Jeevana Priya Inala, Cong Yan, Jianfeng Gao, Nan Duan, Michael R. Lyu,
Abstract要約: 我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
参考スコア（独自算出の注目度）: 131.26365849822932
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data wrangling, the process of preparing raw data for further analysis in computational notebooks, is a crucial yet time-consuming step in data science. Code generation has the potential to automate the data wrangling process to reduce analysts' overhead by translating user intents into executable code. Precisely generating data wrangling code necessitates a comprehensive consideration of the rich context present in notebooks, including textual context, code context and data context. However, notebooks often interleave multiple non-linear analysis tasks into linear sequence of code blocks, where the contextual dependencies are not clearly reflected. Directly training models with source code blocks fails to fully exploit the contexts for accurate wrangling code generation. To bridge the gap, we aim to construct a high quality datasets with clear and rich contexts to help training models for data wrangling code generation tasks. In this work, we first propose an automated approach, CoCoMine to mine data-wrangling code generation examples with clear multi-modal contextual dependency. It first adopts data flow analysis to identify the code blocks containing data wrangling codes. Then, CoCoMine extracts the contextualized datawrangling code examples through tracing and replaying notebooks. With CoCoMine, we construct CoCoNote, a dataset containing 58,221 examples for Contextualized Data-wrangling Code generation in Notebooks. To demonstrate the effectiveness of our dataset, we finetune a range of pretrained code models and prompt various large language models on our task. Furthermore, we also propose DataCoder, which encodes data context and code&textual contexts separately to enhance code generation. Experiment results demonstrate the significance of incorporating data context in data-wrangling code generation and the effectiveness of our model. We release code and data at url...
Abstract（参考訳）: データラングリングは、計算ノートブックのさらなる分析のために生データを準備するプロセスであり、データサイエンスにおいて不可欠だが時間を要するステップである。コード生成は、ユーザ意図を実行可能なコードに変換することによって、アナリストのオーバーヘッドを削減するために、データラングリングプロセスを自動化する可能性がある。正確なコードラングリングデータの生成は、テキストコンテキスト、コードコンテキスト、データコンテキストなど、ノートブックに存在するリッチコンテキストの包括的な考慮を必要とする。しかし、ノートブックはしばしば複数の非線形解析タスクを線形コードブロックのシーケンスにインターリーブする。ソースコードブロックでモデルを直接トレーニングするのは、正確なラングリングコード生成のためにコンテキストを完全に活用するのに失敗する。このギャップを埋めるために、コード生成タスクを乱すデータモデルのトレーニングを支援するために、明確でリッチなコンテキストで高品質なデータセットを構築することを目的としています。本研究では,まず,マルチモーダルなコンテキスト依存を明確化したデータラングリングコード生成例を抽出するための自動アプローチであるCoCoMineを提案する。最初はデータフロー分析を採用して、データラングリングコードを含むコードブロックを識別する。次にCoCoMineは、ノートブックのトレースと再生を通じて、コンテキスト化されたデータラングリングコード例を抽出する。 CoCoMineでは、Notebooksでコンテキスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteを構築している。データセットの有効性を示すため、トレーニング済みのコードモデルの範囲を微調整し、タスク上で様々な大きな言語モデルを促す。さらに、コード生成を強化するために、データコンテキストとコード/テキストコンテキストを別々にエンコードするDataCoderを提案する。実験結果から,データラングリングコード生成にデータコンテキストを組み込むことの重要性と,本モデルの有効性が示された。コードとデータは url でリリースします。

関連論文リスト

Knowledge Graph Based Repository-Level Code Generation [0.0]
本稿では,コード検索と検索を改善するための知識グラフに基づく新しい手法を提案する。提案手法は,コードリポジトリをグラフとして表現し,コンテキスト認識型コード生成のための構造情報とリレーショナル情報をキャプチャする。提案手法を,リポジトリレベルのコード生成ベンチマークであるEvolutionary Code Benchmarkデータセットにベンチマークし,提案手法がベースラインアプローチを著しく上回ることを示す。
論文参考訳（メタデータ） (2025-05-20T14:13:59Z)
A Vulnerability Code Intent Summary Dataset [3.609135490386991]
本稿では,BADS と呼ばれる大規模多視点コードインテント・サマリ・データセットを提案する。与えられたコードスニペットの理解を高め、コード開発プロセスのリスクを低減することを目的としている。データセットと関連ツールがGitHubで公開されている。
論文参考訳（メタデータ） (2025-04-11T00:39:50Z)
Bridging Textual-Collaborative Gap through Semantic Codes for Sequential Recommendation [91.13055384151897]
CoCoRecは、シーケンシャルレコメンデーションのための新しいコードベースのテキストおよび協調的セマンティックフュージョン法である。ベクトル量子化手法を用いて,多視点テキスト埋め込みから細粒度セマンティックコードを生成する。テキスト・コラボレーティブ・セマンティクスの融合をさらに促進するために,最適化戦略を導入する。
論文参考訳（メタデータ） (2025-03-15T15:54:44Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
The Vault: A Comprehensive Multilingual Dataset for Advancing Code Understanding and Generation [5.2510537676167335]
複数のプログラミング言語における高品質なコードテキストペアのデータセットであるThe Vaultを提示する。我々の評価では、The Vault上でコード大言語モデルを微調整すると、このようなモデルはCodeSearchNetのような他のデータセットでトレーニングされたモデルよりも優れています。
論文参考訳（メタデータ） (2023-05-09T09:35:03Z)
Natural Language to Code Generation in Interactive Data Science Notebooks [35.621936471322385]
データサイエンスノートブックのパンダスデータ分析フレームワークを用いて1082のコード生成問題のベンチマークであるARCADEを構築した。我々は,Python 計算ノートブック用の 62B コード言語モデル PaChiNCo を開発した。
論文参考訳（メタデータ） (2022-12-19T05:06:00Z)
CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文参考訳（メタデータ） (2022-11-25T18:05:44Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)
GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文参考訳（メタデータ） (2020-09-17T15:25:56Z)
Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning [18.354352985591305]
コード要約は、ソースコードスニペットが与えられた短い自然言語記述を生成し、コード検索は、自然言語クエリが与えられた関連するソースコードを取得する。最近の研究は、これらの2つのタスクを組み合わせてパフォーマンスを改善している。本稿では,新たなコード生成タスクを導入することによって,2つのタスクのエンド・ツー・エンド・モデルを提案する。
論文参考訳（メタデータ） (2020-02-24T12:26:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。