Fugu-MT 論文翻訳(概要): A systematic literature review on the code smells datasets and validation mechanisms

論文の概要: A systematic literature review on the code smells datasets and validation mechanisms

arxiv url: http://arxiv.org/abs/2306.01377v1
Date: Fri, 2 Jun 2023 08:57:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 16:05:55.159935
Title: A systematic literature review on the code smells datasets and validation mechanisms
Title（参考訳）: コード臭いのデータセットと検証メカニズムに関する体系的文献レビュー
Authors: Morteza Zakeri-Nasrabadi and Saeed Parsa and Ehsan Esmaili and Fabio Palomba
Abstract要約: 45の既存データセットの調査によると、匂いを検出するデータセットの精度は、関連する特性に大きく依存している。多くの既存のデータセットは、God Class、Long Method、Feature Envyをサポートし、FowlerとBeckのカタログの6つの匂いは、いかなるデータセットもサポートしていない。
参考スコア（独自算出の注目度）: 13.359901661369236
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The accuracy reported for code smell-detecting tools varies depending on the dataset used to evaluate the tools. Our survey of 45 existing datasets reveals that the adequacy of a dataset for detecting smells highly depends on relevant properties such as the size, severity level, project types, number of each type of smell, number of smells, and the ratio of smelly to non-smelly samples in the dataset. Most existing datasets support God Class, Long Method, and Feature Envy while six smells in Fowler and Beck's catalog are not supported by any datasets. We conclude that existing datasets suffer from imbalanced samples, lack of supporting severity level, and restriction to Java language.
Abstract（参考訳）: コード臭い検出ツールで報告される精度は、ツールの評価に使用されるデータセットによって異なる。既存の45個のデータセットを調査したところ, 臭気検出用データセットの精度は, 大きさ, 重度レベル, プロジェクトタイプ, 臭気の種類, 臭気数, および非臭気サンプルに対する臭気の比率など, 関連する特性に大きく依存していることが判明した。多くの既存のデータセットは、God Class、Long Method、Feature Envyをサポートし、FowlerとBeckのカタログの6つの匂いは、いかなるデータセットもサポートしていない。既存のデータセットには、不均衡なサンプル、重大性レベルのサポートの欠如、java言語への制限などがあります。

関連論文リスト

Anno-incomplete Multi-dataset Detection [67.69438032767613]
我々は「不完全なマルチデータセット検出」という新しい問題を提案する。複数の注釈付きデータセットで全ての対象カテゴリを正確に検出できるエンドツーエンドのマルチタスク学習アーキテクチャを開発した。
論文参考訳（メタデータ） (2024-08-29T03:58:21Z)
Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。 BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文参考訳（メタデータ） (2024-07-10T18:00:54Z)
Unmasking and Improving Data Credibility: A Study with Datasets for Training Harmless Language Models [25.893228797735908]
本研究は,Jigsaw Civil Comments, Anthropic Harmless & Red Team, PKU BeaverTails & SafeRLHFなど,現実世界のデータセットの信頼性に重点を置いている。ヒトによるこれらのデータセットのクリーニングのコストと困難さを考慮して、データセットの信頼性を評価するための体系的な枠組みを導入する。上記のベンチマークから構築した11のデータセットで、平均6.16%のラベルエラーを発見し、修正する。
論文参考訳（メタデータ） (2023-11-19T02:34:12Z)
infoVerse: A Universal Framework for Dataset Characterization with Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。 infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-05-30T18:12:48Z)
DACOS-A Manually Annotated Dataset of Code Smells [4.753388560240438]
5,192のコードスニペットに対して10,267のアノテーションを含む手動注釈付きデータセットであるDACOSを提案する。データセットは、多面的抽象化、複雑なメソッド、長いパラメータリストという、粒度の異なる3種類のコードの臭いをターゲットとしています。私たちは、アノテーションがスニペットを1つずつ見てマークし、提供されたアノテーションを記録するのを助けるWebアプリケーションであるTagManを開発した。
論文参考訳（メタデータ） (2023-03-15T16:13:40Z)
Analyzing Fairness in Deepfake Detection With Massively Annotated Databases [9.407035514709293]
パブリックなDeepfakeデータセットにおいてバイアス検出を引き起こす要因について検討する。一般的な5つのDeepfakeデータセットに対して、47の異なる属性を持つ大規模な人口統計学的および非デコグラフィ的アノテーションを作成します。我々は、これらのデータセット上の3つの最先端のDeepfake検出バックボーンモデルのAIバイアスの原因となる属性を分析する。
論文参考訳（メタデータ） (2022-08-11T14:28:21Z)
Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文参考訳（メタデータ） (2022-06-07T17:59:44Z)
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文参考訳（メタデータ） (2022-06-05T22:31:45Z)
Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文参考訳（メタデータ） (2020-08-13T08:04:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。