論文の概要: A systematic literature review on the code smells datasets and
validation mechanisms
- arxiv url: http://arxiv.org/abs/2306.01377v1
- Date: Fri, 2 Jun 2023 08:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:05:55.159935
- Title: A systematic literature review on the code smells datasets and
validation mechanisms
- Title(参考訳): コード臭いのデータセットと検証メカニズムに関する体系的文献レビュー
- Authors: Morteza Zakeri-Nasrabadi and Saeed Parsa and Ehsan Esmaili and Fabio
Palomba
- Abstract要約: 45の既存データセットの調査によると、匂いを検出するデータセットの精度は、関連する特性に大きく依存している。
多くの既存のデータセットは、God Class、Long Method、Feature Envyをサポートし、FowlerとBeckのカタログの6つの匂いは、いかなるデータセットもサポートしていない。
- 参考スコア(独自算出の注目度): 13.359901661369236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The accuracy reported for code smell-detecting tools varies depending on the
dataset used to evaluate the tools. Our survey of 45 existing datasets reveals
that the adequacy of a dataset for detecting smells highly depends on relevant
properties such as the size, severity level, project types, number of each type
of smell, number of smells, and the ratio of smelly to non-smelly samples in
the dataset. Most existing datasets support God Class, Long Method, and Feature
Envy while six smells in Fowler and Beck's catalog are not supported by any
datasets. We conclude that existing datasets suffer from imbalanced samples,
lack of supporting severity level, and restriction to Java language.
- Abstract(参考訳): コード臭い検出ツールで報告される精度は、ツールの評価に使用されるデータセットによって異なる。
既存の45個のデータセットを調査したところ, 臭気検出用データセットの精度は, 大きさ, 重度レベル, プロジェクトタイプ, 臭気の種類, 臭気数, および非臭気サンプルに対する臭気の比率など, 関連する特性に大きく依存していることが判明した。
多くの既存のデータセットは、God Class、Long Method、Feature Envyをサポートし、FowlerとBeckのカタログの6つの匂いは、いかなるデータセットもサポートしていない。
既存のデータセットには、不均衡なサンプル、重大性レベルのサポートの欠如、java言語への制限などがあります。
関連論文リスト
- Anno-incomplete Multi-dataset Detection [67.69438032767613]
我々は「不完全なマルチデータセット検出」という新しい問題を提案する。
複数の注釈付きデータセットで全ての対象カテゴリを正確に検出できるエンドツーエンドのマルチタスク学習アーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-08-29T03:58:21Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - Unmasking and Improving Data Credibility: A Study with Datasets for Training Harmless Language Models [25.893228797735908]
本研究は,Jigsaw Civil Comments, Anthropic Harmless & Red Team, PKU BeaverTails & SafeRLHFなど,現実世界のデータセットの信頼性に重点を置いている。
ヒトによるこれらのデータセットのクリーニングのコストと困難さを考慮して、データセットの信頼性を評価するための体系的な枠組みを導入する。
上記のベンチマークから構築した11のデータセットで、平均6.16%のラベルエラーを発見し、修正する。
論文 参考訳(メタデータ) (2023-11-19T02:34:12Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - DACOS-A Manually Annotated Dataset of Code Smells [4.753388560240438]
5,192のコードスニペットに対して10,267のアノテーションを含む手動注釈付きデータセットであるDACOSを提案する。
データセットは、多面的抽象化、複雑なメソッド、長いパラメータリストという、粒度の異なる3種類のコードの臭いをターゲットとしています。
私たちは、アノテーションがスニペットを1つずつ見てマークし、提供されたアノテーションを記録するのを助けるWebアプリケーションであるTagManを開発した。
論文 参考訳(メタデータ) (2023-03-15T16:13:40Z) - Analyzing Fairness in Deepfake Detection With Massively Annotated
Databases [9.407035514709293]
パブリックなDeepfakeデータセットにおいてバイアス検出を引き起こす要因について検討する。
一般的な5つのDeepfakeデータセットに対して、47の異なる属性を持つ大規模な人口統計学的および非デコグラフィ的アノテーションを作成します。
我々は、これらのデータセット上の3つの最先端のDeepfake検出バックボーンモデルのAIバイアスの原因となる属性を分析する。
論文 参考訳(メタデータ) (2022-08-11T14:28:21Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。