論文の概要: DACOS-A Manually Annotated Dataset of Code Smells
- arxiv url: http://arxiv.org/abs/2303.08729v1
- Date: Wed, 15 Mar 2023 16:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:03:22.456008
- Title: DACOS-A Manually Annotated Dataset of Code Smells
- Title(参考訳): DACOS - コードスメルのマニュアルアノテーション付きデータセット
- Authors: Himesh Nandani, Mootez Saad, Tushar Sharma
- Abstract要約: 5,192のコードスニペットに対して10,267のアノテーションを含む手動注釈付きデータセットであるDACOSを提案する。
データセットは、多面的抽象化、複雑なメソッド、長いパラメータリストという、粒度の異なる3種類のコードの臭いをターゲットとしています。
私たちは、アノテーションがスニペットを1つずつ見てマークし、提供されたアノテーションを記録するのを助けるWebアプリケーションであるTagManを開発した。
- 参考スコア(独自算出の注目度): 4.753388560240438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers apply machine-learning techniques for code smell detection to
counter the subjectivity of many code smells. Such approaches need a large,
manually annotated dataset for training and benchmarking. Existing literature
offers a few datasets; however, they are small in size and, more importantly,
do not focus on the subjective code snippets. In this paper, we present DACOS,
a manually annotated dataset containing 10,267 annotations for 5,192 code
snippets. The dataset targets three kinds of code smells at different
granularity: multifaceted abstraction, complex method, and long parameter list.
The dataset is created in two phases. The first phase helps us identify the
code snippets that are potentially subjective by determining the thresholds of
metrics used to detect a smell. The second phase collects annotations for
potentially subjective snippets. We also offer an extended dataset DACOSX that
includes definitely benign and definitely smelly snippets by using the
thresholds identified in the first phase. We have developed TagMan, a web
application to help annotators view and mark the snippets one-by-one and record
the provided annotations. We make the datasets and the web application
accessible publicly. This dataset will help researchers working on smell
detection techniques to build relevant and context-aware machine-learning
models.
- Abstract(参考訳): 研究者は、多くのコードの臭いの主観性に対抗するために、コードの臭い検出に機械学習技術を適用する。
このようなアプローチでは、トレーニングとベンチマークのために、大規模な手動のアノテートデータセットが必要です。
既存の文献にはいくつかのデータセットがあるが、サイズは小さく、より重要なのは、主観的なコードスニペットに集中しないことだ。
本稿では,5,192個のコードスニペットに対して10,267個のアノテーションを含む手動注釈付きデータセットであるDACOSを提案する。
データセットは、多面的な抽象化、複雑なメソッド、長いパラメータリストの3種類のコードの臭いをターゲットとしている。
データセットは2つのフェーズで作成されます。
第1フェーズは、臭いを検出するために使用されるメトリクスのしきい値を決定することで、潜在的に主観的なコードスニペットを特定するのに役立ちます。
第2フェーズでは、潜在的な主観的なスニペットに対するアノテーションを収集する。
また、第1フェーズで特定された閾値を使用して、確実に良質で確実に臭いスニペットを含む拡張データセットDACOSXも提供します。
私たちは、アノテーションがスニペットを1つずつ見てマークし、提供されたアノテーションを記録するのを助けるWebアプリケーションであるTagManを開発した。
私たちはデータセットとwebアプリケーションをパブリックアクセス可能にします。
このデータセットは、臭い検出技術に取り組んでいる研究者が関連する、コンテキスト対応の機械学習モデルを構築するのに役立つ。
関連論文リスト
- MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
学習目的の異なる複数の事前学習タスクを統一するマルチタスク事前学習モデルMASTERを提案する。
共有ディープエンコーダを組み込むことにより,タスク間の豊富な意味情報を高密度ベクトルに圧縮し,アーキテクチャにおける表現ボトルネックを構築する。
提案手法は,従来の最先端の高密度検索手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Omni-DETR: Omni-Supervised Object Detection with Transformers [165.4190908259015]
我々は、ラベルなし、完全ラベル付き、弱ラベル付きアノテーションを使用できるOmni教師付きオブジェクト検出の問題を考察する。
この統一アーキテクチャの下では、異なる種類の弱いラベルを利用して正確な擬似ラベルを生成することができる。
弱いアノテーションは検出性能を向上させるのに役立ち、それらの混合はアノテーションのコストと精度のトレードオフを改善することができる。
論文 参考訳(メタデータ) (2022-03-30T06:36:09Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - Deep Indexed Active Learning for Matching Heterogeneous Entity
Representations [20.15233789156307]
本稿では,ブロッキングのリコールとブロックペアのマッチング精度を最大化するために,組込みを共同で学習するスケーラブルなアクティブラーニング手法であるdiardを提案する。
5つのベンチマークデータセットと多言語レコードマッチングデータセットの実験は、精度、リコール、実行時間の観点から、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2021-04-08T18:00:19Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Exploit Multiple Reference Graphs for Semi-supervised Relation
Extraction [12.837901211741443]
ラベルなしデータとラベル付きデータとの接続を構築することを提案する。
具体的には,まず3種類の情報を用いて参照グラフを構築する。
目標は、ラベル付けされていないサンプル(s)をラベル付けされたサンプル(s)に意味的または語彙的に接続することである。
論文 参考訳(メタデータ) (2020-10-22T02:14:27Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Handling Missing Annotations in Supervised Learning Data [0.0]
ADL (Activity of Daily Living) は、非常に大きなセンサーデータ読み取りを利用するシステムの例である。
生成されたデータセットのサイズは非常に大きいので、人間のアノテーションがデータセットのすべてのインスタンスに特定のラベルを付けることはほとんど不可能です。
本研究では,これらのギャップに対処する3つのパラダイムを提案し,検討する。
論文 参考訳(メタデータ) (2020-02-17T18:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。