Fugu-MT 論文翻訳(概要): DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation

論文の概要: DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation

arxiv url: http://arxiv.org/abs/2211.11501v1
Date: Fri, 18 Nov 2022 17:20:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 21:34:35.320319
Title: DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation
Title（参考訳）: DS-1000:データサイエンスコード生成のための自然で信頼性の高いベンチマーク
Authors: Yuhang Lai and Chengxi Li and Yiming Wang and Tianyi Zhang and Ruiqi Zhong and Luke Zettlemoyer and Scott Wen-tau Yih and Daniel Fried and Sida Wang and Tao Yu
Abstract要約: DS-1000は7つのPythonライブラリにまたがる1000のデータサイエンス問題のあるコード生成ベンチマークである。まず、StackOverflowからそれらを収集して以来の、多様で現実的で実践的なユースケースを反映しています。第2に、私たちの自動評価は非常に具体的(信頼性)です -- 評価が受け入れているすべてのCodex予測ソリューションに対して、そのわずか1.8%が間違っています。
参考スコア（独自算出の注目度）: 70.96868419971756
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce DS-1000, a code generation benchmark with a thousand data science problems spanning seven Python libraries, such as NumPy and Pandas. Compared to prior works, DS-1000 incorporates three core features. First, our problems reflect diverse, realistic, and practical use cases since we collected them from StackOverflow. Second, our automatic evaluation is highly specific (reliable) -- across all Codex-002-predicted solutions that our evaluation accept, only 1.8% of them are incorrect; we achieve this with multi-criteria metrics, checking both functional correctness by running test cases and surface-form constraints by restricting API usages or keywords. Finally, we proactively defend against memorization by slightly modifying our problems to be different from the original StackOverflow source; consequently, models cannot answer them correctly by memorizing the solutions from pre-training. The current best public system (Codex-002) achieves 43.3% accuracy, leaving ample room for improvement. We release our benchmark at https://ds1000-code-gen.github.io.
Abstract（参考訳）: DS-1000は、NumPyやPandasといった7つのPythonライブラリにまたがる1000のデータサイエンス問題を持つコード生成ベンチマークである。前作と比較して、DS-1000は3つのコア機能を備えている。まず、StackOverflowから収集したさまざまな、現実的で実践的なユースケースを反映しています。第二に、私たちの評価が受け入れるすべてのcodex-002-predictedソリューションに対して、私たちの自動評価は高度に特定(信頼性)され、その1.8%が間違っています。私たちはマルチクリテリアメトリクスでこれを達成し、テストケースの実行による機能的正確性と、apiの使用やキーワードを制限することで表面的な制約の両方をチェックします。最後に、我々は、元のstackoverflowソースとは異なる問題に変更を加えることで、暗記を積極的に防ぎます。現在のベストパブリックシステム(codex-002)は43.3%の精度を実現しており、改善の余地は十分にある。ベンチマークはhttps://ds1000-code-gen.github.ioでリリースします。

関連論文リスト

CodeAssistBench (CAB): Dataset & Benchmarking for Multi-turn Chat-Based Code Assistance [18.886738819470086]
我々は,マルチターンプログラミング支援を評価するための最初のベンチマークフレームワークであるCodeAssistBench (CAB)を紹介した。既存のプログラミングQ&Aベンチマークとは異なり、CABは質問に関連するGitHubの問題からスケーラブルなデータセットを自動的に生成する。このフレームワークを用いて,231リポジトリにわたる3,286の現実世界のプログラミング質問をテストセットとして構築した。
論文参考訳（メタデータ） (2025-07-14T17:19:00Z)
DSCodeBench: A Realistic Benchmark for Data Science Code Generation [16.227266086218425]
DSCodeBenchは、複雑で現実的なデータサイエンスコード生成タスクにおいて、大きな言語モデル(LLM)を評価するために設計された新しいベンチマークである。広く使用されている10のPythonデータサイエンスライブラリにまたがって、GitHubからソースされた1,000の慎重に構築された問題で構成されている。現在の最先端ベンチマークDS-1000と比較すると、DSCodeBenchはより困難で代表的なテストベッドを提供する。
論文参考訳（メタデータ） (2025-05-21T15:11:26Z)
GENCNIPPET: Automated Generation of Code Snippets for Supporting Programming Questions [5.176434782905268]
ソフトウェア開発者は、Stack Overflow (SO)のようなテクニカルQ&Aフォーラムに対して、プログラミング関連の問題に対する解決策を求めることが多い。多くの疑問は、簡単に利用できるコードがないこと、時間制限、雇用者制限、機密性に関する懸念、共有すべきコードに関する不確実性のために、必要なコードスニペットを見逃している。 GENCNIPPETは、適切なコード例(必要であれば)を生成して、タイムリーなソリューションに対する質問をサポートする。
論文参考訳（メタデータ） (2025-04-22T22:07:40Z)
Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory [52.44029486173232]
Dynamic Cheatsheet(DC)は、永続的で進化するメモリを備えたブラックボックス言語モデルを提供する軽量フレームワークである。 DCは、蓄積した戦略、コードスニペット、および推論時に一般的な問題解決の洞察をモデルが保存し再利用することを可能にする。このテストタイム学習は、明確な地味なラベルや人間のフィードバックを必要とせずに、幅広いタスクのパフォーマンスを大幅に向上させる。
論文参考訳（メタデータ） (2025-04-10T17:57:33Z)
Can Language Models Replace Programmers? REPOCOD Says 'Not Yet' [9.48622608877252]
大規模言語モデル(LLM)は、Pythonのコーディング問題を解く際に90%以上のpass@1を達成している。 REPOCODは、11の人気のある現実世界プロジェクトから収集された980の問題のコード生成ベンチマークである。 REPOCODの各タスクには、平均313.5人の開発者によるテストケースが含まれている。
論文参考訳（メタデータ） (2024-10-29T01:21:05Z)
Generating Unseen Code Tests In Infinitum [1.0674604700001968]
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化するベンチマークのバリエーションを作成する手法を提案する。我々は、Pythonでテキストからコードを生成するタスクに対して、textitauto-regressionと呼ばれる1つのベンチマークを実装した。
論文参考訳（メタデータ） (2024-07-29T08:11:20Z)
Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文参考訳（メタデータ） (2023-10-08T10:08:21Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
Bridging Precision and Confidence: A Train-Time Loss for Calibrating Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文参考訳（メタデータ） (2023-03-25T08:56:21Z)
Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep Learning [66.59455427102152]
不確実性ベースライン(Uncertainty Baselines): 各種タスクにおける標準および最先端のディープラーニング手法の高品質な実装。各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた、自己完結型の実験パイプラインである。モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードを提供する。
論文参考訳（メタデータ） (2021-06-07T23:57:32Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)
DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and Code Skeletons [5.564793925574796]
本稿では,大規模な事前学習型トランスを用いた自動デバッグ手法を提案する。まず、合成バグを生成するために、逆コミットデータにバグ生成モデルをトレーニングすることから始めます。次に、テストを実行できる10Kリポジトリに焦点を当て、テストをパスすることでカバーされるすべての関数のバグの多いバージョンを作成します。
論文参考訳（メタデータ） (2021-05-19T18:40:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。