論文の概要: DACOS-A Manually Annotated Dataset of Code Smells
- arxiv url: http://arxiv.org/abs/2303.08729v1
- Date: Wed, 15 Mar 2023 16:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:03:22.456008
- Title: DACOS-A Manually Annotated Dataset of Code Smells
- Title(参考訳): DACOS - コードスメルのマニュアルアノテーション付きデータセット
- Authors: Himesh Nandani, Mootez Saad, Tushar Sharma
- Abstract要約: 5,192のコードスニペットに対して10,267のアノテーションを含む手動注釈付きデータセットであるDACOSを提案する。
データセットは、多面的抽象化、複雑なメソッド、長いパラメータリストという、粒度の異なる3種類のコードの臭いをターゲットとしています。
私たちは、アノテーションがスニペットを1つずつ見てマークし、提供されたアノテーションを記録するのを助けるWebアプリケーションであるTagManを開発した。
- 参考スコア(独自算出の注目度): 4.753388560240438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers apply machine-learning techniques for code smell detection to
counter the subjectivity of many code smells. Such approaches need a large,
manually annotated dataset for training and benchmarking. Existing literature
offers a few datasets; however, they are small in size and, more importantly,
do not focus on the subjective code snippets. In this paper, we present DACOS,
a manually annotated dataset containing 10,267 annotations for 5,192 code
snippets. The dataset targets three kinds of code smells at different
granularity: multifaceted abstraction, complex method, and long parameter list.
The dataset is created in two phases. The first phase helps us identify the
code snippets that are potentially subjective by determining the thresholds of
metrics used to detect a smell. The second phase collects annotations for
potentially subjective snippets. We also offer an extended dataset DACOSX that
includes definitely benign and definitely smelly snippets by using the
thresholds identified in the first phase. We have developed TagMan, a web
application to help annotators view and mark the snippets one-by-one and record
the provided annotations. We make the datasets and the web application
accessible publicly. This dataset will help researchers working on smell
detection techniques to build relevant and context-aware machine-learning
models.
- Abstract(参考訳): 研究者は、多くのコードの臭いの主観性に対抗するために、コードの臭い検出に機械学習技術を適用する。
このようなアプローチでは、トレーニングとベンチマークのために、大規模な手動のアノテートデータセットが必要です。
既存の文献にはいくつかのデータセットがあるが、サイズは小さく、より重要なのは、主観的なコードスニペットに集中しないことだ。
本稿では,5,192個のコードスニペットに対して10,267個のアノテーションを含む手動注釈付きデータセットであるDACOSを提案する。
データセットは、多面的な抽象化、複雑なメソッド、長いパラメータリストの3種類のコードの臭いをターゲットとしている。
データセットは2つのフェーズで作成されます。
第1フェーズは、臭いを検出するために使用されるメトリクスのしきい値を決定することで、潜在的に主観的なコードスニペットを特定するのに役立ちます。
第2フェーズでは、潜在的な主観的なスニペットに対するアノテーションを収集する。
また、第1フェーズで特定された閾値を使用して、確実に良質で確実に臭いスニペットを含む拡張データセットDACOSXも提供します。
私たちは、アノテーションがスニペットを1つずつ見てマークし、提供されたアノテーションを記録するのを助けるWebアプリケーションであるTagManを開発した。
私たちはデータセットとwebアプリケーションをパブリックアクセス可能にします。
このデータセットは、臭い検出技術に取り組んでいる研究者が関連する、コンテキスト対応の機械学習モデルを構築するのに役立つ。
関連論文リスト
- Harlequin: Color-driven Generation of Synthetic Data for Referring Expression Comprehension [4.164728134421114]
Referring Expression(REC)は、自然言語表現によってシーン内の特定のオブジェクトを識別することを目的としており、視覚言語理解において重要なトピックである。
このタスクの最先端のメソッドは、一般的に高価で手動でラベル付けされたアノテーションを必要とするディープラーニングに基づいている。
テキストと視覚の両方を考慮したRECタスクのための人工データを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T09:08:36Z) - Anno-incomplete Multi-dataset Detection [67.69438032767613]
我々は「不完全なマルチデータセット検出」という新しい問題を提案する。
複数の注釈付きデータセットで全ての対象カテゴリを正確に検出できるエンドツーエンドのマルチタスク学習アーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-08-29T03:58:21Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Thinking Like an Annotator: Generation of Dataset Labeling Instructions [59.603239753484345]
本稿では、公開されていないラベリング命令に対処するため、新しいタスクであるラベリング命令生成を導入する。
1)データセット内のカテゴリ毎に視覚的に代表されるサンプルのセットを生成し,2)サンプルに対応するテキストラベルを提供する。
このフレームワークは人間のアノテーションのプロキシとして機能し、最終的なラベル付け命令セットを生成し、その品質を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-06-24T18:32:48Z) - A systematic literature review on the code smells datasets and
validation mechanisms [13.359901661369236]
45の既存データセットの調査によると、匂いを検出するデータセットの精度は、関連する特性に大きく依存している。
多くの既存のデータセットは、God Class、Long Method、Feature Envyをサポートし、FowlerとBeckのカタログの6つの匂いは、いかなるデータセットもサポートしていない。
論文 参考訳(メタデータ) (2023-06-02T08:57:31Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Omni-DETR: Omni-Supervised Object Detection with Transformers [165.4190908259015]
我々は、ラベルなし、完全ラベル付き、弱ラベル付きアノテーションを使用できるOmni教師付きオブジェクト検出の問題を考察する。
この統一アーキテクチャの下では、異なる種類の弱いラベルを利用して正確な擬似ラベルを生成することができる。
弱いアノテーションは検出性能を向上させるのに役立ち、それらの混合はアノテーションのコストと精度のトレードオフを改善することができる。
論文 参考訳(メタデータ) (2022-03-30T06:36:09Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Exploit Multiple Reference Graphs for Semi-supervised Relation
Extraction [12.837901211741443]
ラベルなしデータとラベル付きデータとの接続を構築することを提案する。
具体的には,まず3種類の情報を用いて参照グラフを構築する。
目標は、ラベル付けされていないサンプル(s)をラベル付けされたサンプル(s)に意味的または語彙的に接続することである。
論文 参考訳(メタデータ) (2020-10-22T02:14:27Z) - Handling Missing Annotations in Supervised Learning Data [0.0]
ADL (Activity of Daily Living) は、非常に大きなセンサーデータ読み取りを利用するシステムの例である。
生成されたデータセットのサイズは非常に大きいので、人間のアノテーションがデータセットのすべてのインスタンスに特定のラベルを付けることはほとんど不可能です。
本研究では,これらのギャップに対処する3つのパラダイムを提案し,検討する。
論文 参考訳(メタデータ) (2020-02-17T18:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。