Fugu-MT 論文翻訳(概要): Training and Evaluating a Jupyter Notebook Data Science Assistant

論文の概要: Training and Evaluating a Jupyter Notebook Data Science Assistant

arxiv url: http://arxiv.org/abs/2201.12901v1
Date: Sun, 30 Jan 2022 19:56:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-01 18:23:49.391848
Title: Training and Evaluating a Jupyter Notebook Data Science Assistant
Title（参考訳）: jupyter notebookデータサイエンスアシスタントの訓練と評価
Authors: Shubham Chandel, Colin B. Clement, Guillermo Serrato, and Neel Sundaresan
Abstract要約: シーケンス・ツー・シーケンス・トランスを用いたデータサイエンスアシスタントの実現可能性について検討する。私たちは、利用可能なすべてのJupyter Notebook GitHubリポジトリで新しいモデルJuPyT5をトレーニングし、新しいメトリックを開発した。
参考スコア（独自算出の注目度）: 5.406059025929894
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the feasibility of a Data Science assistant powered by a sequence-to-sequence transformer by training a new model JuPyT5 on all publicly available Jupyter Notebook GitHub repositories and developing a new metric: Data Science Problems (DSP). DSP is a collection of 1119 problems curated from 306 pedagogical notebooks with 92 dataset dependencies, natural language and Markdown problem descriptions, and assert-based unit tests. These notebooks were designed to test university students' mastery of various Python implementations of Math and Data Science, and we now leverage them to study the ability of JuPyT5 to understand and pass the tests. We analyze the content of DSP, validate its quality, and we find that given 100 sampling attempts JuPyT5 is able to solve 77.5\% of the DSP problems. We further present various ablation and statistical analyses and compare DSP to other recent natural language to code benchmarks.
Abstract（参考訳）: 我々は、Jupyter Notebook GitHubリポジトリ上で新しいモデルJuPyT5をトレーニングし、新しいメトリクスであるデータサイエンス問題(DSP)を開発することで、シーケンシャル・ツー・シーケンス・トランスフォーマーを利用したデータサイエンスアシスタントの実現可能性を検討した。 DSPは、92のデータセット依存、自然言語とMarkdown問題記述、アサーションベースのユニットテストを備えた306の台帳から算出された1119の問題の集合である。これらのノートブックは、大学生の数学とデータサイエンスの様々なPython実装の習得をテストするために設計されており、JuPyT5がテストを理解し、合格する能力を研究するために利用しています。我々はdspの内容を分析し,その品質を検証し,100回のサンプリングで77.5\%のdsp問題をjupyt5で解くことができた。さらに、様々なアブレーションと統計分析を行い、DSPを他の最近の自然言語とコードベンチマークと比較する。

関連論文リスト

AutoSDT: Scaling Data-Driven Discovery Tasks Toward Open Co-Scientists [28.091640355670666]
AutoSDTは、現実世界のデータ駆動ディスカバリで高品質なコーディングタスクを収集する自動パイプラインである。データ駆動ディスカバリのための5,404のコーディングタスクのデータセットであるAutoSDT-5Kを構築した。 AutoSDT-Coder-32Bは、2つの挑戦的なデータ駆動ディスカバリベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2025-06-09T18:41:50Z)
SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development [40.48114055515786]
SWE-Devは、現実世界の機能開発タスクで自律的なコーディングシステムを評価し、訓練するために設計された最初の大規模データセットである。このコレクションは、Supervised Fine-Tuning(SFT)のための高品質なデータを提供するが、実行可能単体テストから正確な報酬信号を提供することで強化学習(RL)を可能にする。
論文参考訳（メタデータ） (2025-05-22T17:51:49Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
Transferable and Efficient Non-Factual Content Detection via Probe Training with Offline Consistency Checking [48.68044413117397]
PINOSEは、オフラインの自己整合性検査結果に基づいて探索モデルをトレーニングし、人間の注釈付きデータの必要性を回避する。応答復号に先立って内部状態の様々な側面を調べ、事実的不正確な検出に寄与する。
論文参考訳（メタデータ） (2024-04-10T05:00:35Z)
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。 LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文参考訳（メタデータ） (2024-03-04T22:47:58Z)
Data Interpreter: An LLM Agent For Data Science [43.13678782387546]
LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
論文参考訳（メタデータ） (2024-02-28T19:49:55Z)
Towards Automatically Addressing Self-Admitted Technical Debt: How Far Are We? [17.128428286986573]
本稿では,ニューラルベース生成モデルによって技術的負債を自動的に返済できる範囲を実験的に検討する。 595のオープンソースプロジェクトから5,039件の自己申告技術的負債(SATD)の削除日程を抽出することから始めます。このデータセットを用いて、7つの異なる生成ディープラーニング(DL)モデル構成を実験する。
論文参考訳（メタデータ） (2023-08-17T12:27:32Z)
NLP-LTU at SemEval-2023 Task 10: The Impact of Data Augmentation and Semi-Supervised Learning Techniques on Text Classification Performance on an Imbalanced Dataset [1.3445335428144554]
本稿では、ソーシャルメディア投稿におけるオンライン性差別の検出と分類に焦点を当てたSemEval23のタスク10の方法論を提案する。この課題に対する我々の解決策は、細調整されたトランスフォーマーベースモデルのアンサンブルに基づいている。
論文参考訳（メタデータ） (2023-04-25T14:19:46Z)
Natural Language to Code Generation in Interactive Data Science Notebooks [35.621936471322385]
データサイエンスノートブックのパンダスデータ分析フレームワークを用いて1082のコード生成問題のベンチマークであるARCADEを構築した。我々は,Python 計算ノートブック用の 62B コード言語モデル PaChiNCo を開発した。
論文参考訳（メタデータ） (2022-12-19T05:06:00Z)
Meta Input: How to Leverage Off-the-Shelf Deep Neural Networks [29.975937981538664]
我々は、エンドユーザーがモデルを変更することなく、独自のテスト環境で事前訓練されたDNNモデルを活用できる新しいアプローチを導入する。テストデータの分布をトレーニングデータと整合させる追加入力であるtextitmeta 入力を提案する。その結果、エンドユーザは、トレーニング環境と異なるテスト環境で、よく訓練されたモデルを利用することができる。
論文参考訳（メタデータ） (2022-10-21T02:11:38Z)
Winning solutions and post-challenge analyses of the ChaLearn AutoDL challenge 2019 [112.36155380260655]
本稿では,ChaLearnのAutoDLチャレンジシリーズの結果と今後の課題について述べる。その結果,一般的なニューラルネットワーク探索(NAS)は実用的ではなかったものの,DL手法が支配的であったことが示唆された。メタラーナー"、"データインジェクタ"、"モデルセレクタ"、"モデル/ラーナー"、"評価器"を特徴とする、ハイレベルなモジュール化組織が登場した。
論文参考訳（メタデータ） (2022-01-11T06:21:18Z)
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文参考訳（メタデータ） (2021-07-23T22:41:28Z)
Drinking from a Firehose: Continual Learning with Web-scale Natural Language [109.80198763438248]
大規模に連続学習を行う自然環境について検討する。 Twitterの投稿の膨大なデータセットを集めています。前例のない規模で連続学習アルゴリズムの厳密な評価を行う。
論文参考訳（メタデータ） (2020-07-18T05:40:02Z)
Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文参考訳（メタデータ） (2020-01-06T13:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。