論文の概要: DS-1000: A Natural and Reliable Benchmark for Data Science Code
Generation
- arxiv url: http://arxiv.org/abs/2211.11501v1
- Date: Fri, 18 Nov 2022 17:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:34:35.320319
- Title: DS-1000: A Natural and Reliable Benchmark for Data Science Code
Generation
- Title(参考訳): DS-1000:データサイエンスコード生成のための自然で信頼性の高いベンチマーク
- Authors: Yuhang Lai and Chengxi Li and Yiming Wang and Tianyi Zhang and Ruiqi
Zhong and Luke Zettlemoyer and Scott Wen-tau Yih and Daniel Fried and Sida
Wang and Tao Yu
- Abstract要約: DS-1000は7つのPythonライブラリにまたがる1000のデータサイエンス問題のあるコード生成ベンチマークである。
まず、StackOverflowからそれらを収集して以来の、多様で現実的で実践的なユースケースを反映しています。
第2に、私たちの自動評価は非常に具体的(信頼性)です -- 評価が受け入れているすべてのCodex予測ソリューションに対して、そのわずか1.8%が間違っています。
- 参考スコア(独自算出の注目度): 70.96868419971756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DS-1000, a code generation benchmark with a thousand data
science problems spanning seven Python libraries, such as NumPy and Pandas.
Compared to prior works, DS-1000 incorporates three core features. First, our
problems reflect diverse, realistic, and practical use cases since we collected
them from StackOverflow. Second, our automatic evaluation is highly specific
(reliable) -- across all Codex-002-predicted solutions that our evaluation
accept, only 1.8% of them are incorrect; we achieve this with multi-criteria
metrics, checking both functional correctness by running test cases and
surface-form constraints by restricting API usages or keywords. Finally, we
proactively defend against memorization by slightly modifying our problems to
be different from the original StackOverflow source; consequently, models
cannot answer them correctly by memorizing the solutions from pre-training. The
current best public system (Codex-002) achieves 43.3% accuracy, leaving ample
room for improvement. We release our benchmark at
https://ds1000-code-gen.github.io.
- Abstract(参考訳): DS-1000は、NumPyやPandasといった7つのPythonライブラリにまたがる1000のデータサイエンス問題を持つコード生成ベンチマークである。
前作と比較して、DS-1000は3つのコア機能を備えている。
まず、StackOverflowから収集したさまざまな、現実的で実践的なユースケースを反映しています。
第二に、私たちの評価が受け入れるすべてのcodex-002-predictedソリューションに対して、私たちの自動評価は高度に特定(信頼性)され、その1.8%が間違っています。私たちはマルチクリテリアメトリクスでこれを達成し、テストケースの実行による機能的正確性と、apiの使用やキーワードを制限することで表面的な制約の両方をチェックします。
最後に、我々は、元のstackoverflowソースとは異なる問題に変更を加えることで、暗記を積極的に防ぎます。
現在のベストパブリックシステム(codex-002)は43.3%の精度を実現しており、改善の余地は十分にある。
ベンチマークはhttps://ds1000-code-gen.github.ioでリリースします。
関連論文リスト
- Can Language Models Replace Programmers? REPOCOD Says 'Not Yet' [9.48622608877252]
大規模言語モデル(LLM)は、Pythonのコーディング問題を解く際に90%以上のpass@1を達成している。
REPOCODは、11の人気のある現実世界プロジェクトから収集された980の問題のコード生成ベンチマークである。
REPOCODの各タスクには、平均313.5人の開発者によるテストケースが含まれている。
論文 参考訳(メタデータ) (2024-10-29T01:21:05Z) - Generating Unseen Code Tests In Infinitum [1.0674604700001968]
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化するベンチマークのバリエーションを作成する手法を提案する。
我々は、Pythonでテキストからコードを生成するタスクに対して、textitauto-regressionと呼ばれる1つのベンチマークを実装した。
論文 参考訳(メタデータ) (2024-07-29T08:11:20Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep
Learning [66.59455427102152]
不確実性ベースライン(Uncertainty Baselines): 各種タスクにおける標準および最先端のディープラーニング手法の高品質な実装。
各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた、自己完結型の実験パイプラインである。
モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2021-06-07T23:57:32Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and
Code Skeletons [5.564793925574796]
本稿では,大規模な事前学習型トランスを用いた自動デバッグ手法を提案する。
まず、合成バグを生成するために、逆コミットデータにバグ生成モデルをトレーニングすることから始めます。
次に、テストを実行できる10Kリポジトリに焦点を当て、テストをパスすることでカバーされるすべての関数のバグの多いバージョンを作成します。
論文 参考訳(メタデータ) (2021-05-19T18:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。