論文の概要: A systematic literature review on the code smells datasets and
validation mechanisms
- arxiv url: http://arxiv.org/abs/2306.01377v1
- Date: Fri, 2 Jun 2023 08:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:05:55.159935
- Title: A systematic literature review on the code smells datasets and
validation mechanisms
- Title(参考訳): コード臭いのデータセットと検証メカニズムに関する体系的文献レビュー
- Authors: Morteza Zakeri-Nasrabadi and Saeed Parsa and Ehsan Esmaili and Fabio
Palomba
- Abstract要約: 45の既存データセットの調査によると、匂いを検出するデータセットの精度は、関連する特性に大きく依存している。
多くの既存のデータセットは、God Class、Long Method、Feature Envyをサポートし、FowlerとBeckのカタログの6つの匂いは、いかなるデータセットもサポートしていない。
- 参考スコア(独自算出の注目度): 13.359901661369236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The accuracy reported for code smell-detecting tools varies depending on the
dataset used to evaluate the tools. Our survey of 45 existing datasets reveals
that the adequacy of a dataset for detecting smells highly depends on relevant
properties such as the size, severity level, project types, number of each type
of smell, number of smells, and the ratio of smelly to non-smelly samples in
the dataset. Most existing datasets support God Class, Long Method, and Feature
Envy while six smells in Fowler and Beck's catalog are not supported by any
datasets. We conclude that existing datasets suffer from imbalanced samples,
lack of supporting severity level, and restriction to Java language.
- Abstract(参考訳): コード臭い検出ツールで報告される精度は、ツールの評価に使用されるデータセットによって異なる。
既存の45個のデータセットを調査したところ, 臭気検出用データセットの精度は, 大きさ, 重度レベル, プロジェクトタイプ, 臭気の種類, 臭気数, および非臭気サンプルに対する臭気の比率など, 関連する特性に大きく依存していることが判明した。
多くの既存のデータセットは、God Class、Long Method、Feature Envyをサポートし、FowlerとBeckのカタログの6つの匂いは、いかなるデータセットもサポートしていない。
既存のデータセットには、不均衡なサンプル、重大性レベルのサポートの欠如、java言語への制限などがあります。
関連論文リスト
- Binary Quantification and Dataset Shift: An Experimental Investigation [54.14283123210872]
量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:11:27Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - DACOS-A Manually Annotated Dataset of Code Smells [4.753388560240438]
5,192のコードスニペットに対して10,267のアノテーションを含む手動注釈付きデータセットであるDACOSを提案する。
データセットは、多面的抽象化、複雑なメソッド、長いパラメータリストという、粒度の異なる3種類のコードの臭いをターゲットとしています。
私たちは、アノテーションがスニペットを1つずつ見てマークし、提供されたアノテーションを記録するのを助けるWebアプリケーションであるTagManを開発した。
論文 参考訳(メタデータ) (2023-03-15T16:13:40Z) - Analyzing Fairness in Deepfake Detection With Massively Annotated
Databases [9.407035514709293]
パブリックなDeepfakeデータセットにおいてバイアス検出を引き起こす要因について検討する。
一般的な5つのDeepfakeデータセットに対して、47の異なる属性を持つ大規模な人口統計学的および非デコグラフィ的アノテーションを作成します。
我々は、これらのデータセット上の3つの最先端のDeepfake検出バックボーンモデルのAIバイアスの原因となる属性を分析する。
論文 参考訳(メタデータ) (2022-08-11T14:28:21Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。