Fugu-MT 論文翻訳(概要): MADE-WIC: Multiple Annotated Datasets for Exploring Weaknesses In Code

論文の概要: MADE-WIC: Multiple Annotated Datasets for Exploring Weaknesses In Code

arxiv url: http://arxiv.org/abs/2408.05163v1
Date: Fri, 9 Aug 2024 16:32:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-12 15:16:46.993671
Title: MADE-WIC: Multiple Annotated Datasets for Exploring Weaknesses In Code
Title（参考訳）: MADE-WIC:コードの弱さを探索する複数のアノテーション付きデータセット
Authors: Moritz Mock, Jorge Melegati, Max Kretschmann, Nicolás E. Díaz Ferreyra, Barbara Russo,
Abstract要約: MADE-WICは、機能とコメントの大規模なデータセットであり、技術的負債とコードの弱点に対する複数のアノテーションがある。約860Kのコード関数と、12のオープンソースプロジェクトからの2.7M以上の関連コメントが含まれている。
参考スコア（独自算出の注目度）: 2.399010142304227
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we present MADE-WIC, a large dataset of functions and their comments with multiple annotations for technical debt and code weaknesses leveraging different state-of-the-art approaches. It contains about 860K code functions and more than 2.7M related comments from 12 open-source projects. To the best of our knowledge, no such dataset is publicly available. MADE-WIC aims to provide researchers with a curated dataset on which to test and compare tools designed for the detection of code weaknesses and technical debt. As we have fused existing datasets, researchers have the possibility to evaluate the performance of their tools by also controlling the bias related to the annotation definition and dataset construction. The demonstration video can be retrieved at https://www.youtube.com/watch?v=GaQodPrcb6E.
Abstract（参考訳）: 本稿では,多種多様な最先端アプローチを活用した技術的負債とコードの弱点に対する注釈付き関数とコメントの大規模なデータセットであるMADE-WICを提案する。約860Kのコード関数と、12のオープンソースプロジェクトからの2.7M以上の関連コメントが含まれている。私たちの知る限りでは、そのようなデータセットは公開されていません。 MADE-WICは、コード弱点と技術的負債を検出するために設計されたツールのテストと比較を行う、キュレートされたデータセットを研究者に提供することを目的としている。既存のデータセットを融合させた結果,アノテーション定義やデータセット構築に関するバイアスを制御することで,ツールのパフォーマンスを評価することが可能になった。デモビデオはhttps://www.youtube.com/watch? v=GaQodPrcb6E。

関連論文リスト

OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks [57.589795399265945]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。 BigDocs-Benchも導入しています。実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文参考訳（メタデータ） (2024-12-05T21:41:20Z)
Improving the detection of technical debt in Java source code with an enriched dataset [12.07607688189035]
技術的負債(Technical debt, TD)とは、開発者が問題に対して迅速かつ簡単なソリューションを選択すると、追加の作業とコストが発生すること。近年の研究では、ソースコードに埋め込まれたコメントを分析することで、SATD(Self-Admitted Technical Debts)の検出に焦点が当てられている。コードコメントによって識別された最初のTDデータセットを、関連するソースコードとともにキュレートしました。
論文参考訳（メタデータ） (2024-11-08T10:12:33Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
MatViX: Multimodal Information Extraction from Visually Rich Articles [6.349779979863784]
材料科学では、研究論文から構造化情報を抽出することで、新しい素材の発見を加速することができる。 textscMatViXは、324ドルのフル長の調査記事と1688ドルの複雑な構造化ファイルからなるベンチマークです。これらのファイルは、テキスト、テーブル、フィギュアからフル長の文書から抽出され、MIEにとって包括的な課題となる。
論文参考訳（メタデータ） (2024-10-27T16:13:58Z)
SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing [13.717170962455526]
私たちはSEART Data HubというWebアプリケーションを紹介します。これは、公開GitHubリポジトリからマイニングされたコードを特徴とする大規模データセットを簡単に構築し、事前処理できるWebアプリケーションです。簡単なWebインターフェースを通じて、研究者はマイニング基準と、実行したい特定の前処理ステップを指定できる。リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。
論文参考訳（メタデータ） (2024-09-27T11:42:19Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
On Training a Neural Network to Explain Binaries [43.27448128029069]
本研究では,バイナリコード理解のタスクにおいて,ディープニューラルネットワークをトレーニングする可能性を検討する。私たちは、Stack Overflowの1.1Mエントリを含むキャプチャから派生した、独自のデータセットを構築しています。
論文参考訳（メタデータ） (2024-04-30T15:34:51Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
All Data on the Table: Novel Dataset and Benchmark for Cross-Modality Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文参考訳（メタデータ） (2023-11-14T14:22:47Z)
JEMMA: An Extensible Java Dataset for ML4Code Applications [34.76698017961728]
我々は、機械学習・フォー・ソース・コード(ML4Code)をターゲットにした大規模で多様な高品質なデータセットであるJEMMAを紹介した。 JEMMAの目標は、ソースコードモデルとタスクを試すためのビルディングブロックを提供することで、ML4Codeへの参入障壁を低くすることにあります。 JEMMAには、メタデータ、表現(コードトークン、AST、グラフなど)、いくつかのプロパティといった、かなり多くの事前処理された情報が含まれている。
論文参考訳（メタデータ） (2022-12-18T17:04:14Z)
KACC: A Multi-task Benchmark for Knowledge Abstraction, Concretization and Completion [99.47414073164656]
包括的知識グラフ(KG)は、インスタンスレベルのエンティティグラフとオントロジーレベルの概念グラフを含む。 2ビューのKGは、知識の抽象化、包括化、完成に関する人間の能力を「シミュレーション」するためのモデルのためのテストベッドを提供する。我々は,データセットのスケール,タスクカバレッジ,難易度の観点から,既存のベンチマークを改善した統一KGベンチマークを提案する。
論文参考訳（メタデータ） (2020-04-28T16:21:57Z)
Rapidly Bootstrapping a Question Answering Dataset for COVID-19 [88.86456834766288]
我々は、新型コロナウイルスに特化して設計された質問応答データセットの始まりであるCovidQAを紹介する。これは、そのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。
論文参考訳（メタデータ） (2020-04-23T17:35:11Z)
Comprehensive Instructional Video Analysis: The COIN Dataset and Performance Evaluation [100.68317848808327]
包括的インストラクショナルビデオ解析のための大規模データセット「COIN」を提案する。 COINデータセットには、日々の生活に関連する12の領域で180のタスクの11,827の動画が含まれている。新しい開発ツールボックスでは、すべてのビデオに一連のステップラベルと対応する時間境界がアノテートされる。
論文参考訳（メタデータ） (2020-03-20T16:59:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。