論文の概要: SACS: A Code Smell Dataset using Semi-automatic Generation Approach
- arxiv url: http://arxiv.org/abs/2602.15342v1
- Date: Tue, 17 Feb 2026 04:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.977278
- Title: SACS: A Code Smell Dataset using Semi-automatic Generation Approach
- Title(参考訳): SACS:半自動生成を用いたコードスメルデータセット
- Authors: Hanyu Zhang, Tomoji Kishi,
- Abstract要約: コードの臭いはソフトウェアにおいて大きな課題であり、遅延設計や実装上の欠陥を示している。
機械学習技術を適用する上で最大の課題のひとつは、高品質なコードの臭いデータセットがないことだ。
本研究では,高品質なデータサンプルを用いたコード臭いデータセットを生成するための半自動手法について検討する。
- 参考スコア(独自算出の注目度): 7.718926822172738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code smell is a great challenge in software refactoring, which indicates latent design or implementation flaws that may degrade the software maintainability and evolution. Over the past of decades, the research on code smell has received extensive attention. Especially the researches applied machine learning-technique have become a popular topic in recent studies. However, one of the biggest challenges to apply machine learning-technique is the lack of high-quality code smell datasets. Manually constructing such datasets is extremely labor-intensive, as identifying code smells requires substantial development expertise and considerable time investment. In contrast, automatically generated datasets, while scalable, frequently exhibit reduced label reliability and compromised data quality. To overcome this challenge, in this study, we explore a semi-automatic approach to generate a code smell dataset with high quality data samples. Specifically, we first applied a set of automatic generation rules to produce candidate smelly samples. We then employed multiple metrics to group the data samples into an automatically accepted group and a manually reviewed group, enabling reviewers to concentrate their efforts on ambiguous samples. Furthermore, we established structured review guidelines and developed a annotation tool to support the manual validation process. Based on the proposed semi-automatic generation approach, we created an open-source code smell dataset, SACS, covering three widely studied code smells: Long Method, Large Class, and Feature Envy. Each code smell category includes over 10,000 labeled samples. This dataset could provide a large-scale and publicly available benchmark to facilitate future studies on code smell detection and automated refactoring.
- Abstract(参考訳): コードの臭いはソフトウェアのリファクタリングにおいて大きな課題であり、ソフトウェア保守性と進化を損なう可能性のある設計や実装上の欠陥を示しています。
何十年もの間、コードの臭いの研究は大きな注目を集めてきた。
特に、機械学習技術を適用した研究は近年、一般的な話題となっている。
しかし、機械学習技術を適用する上での最大の課題の1つは、高品質なコードの臭いデータセットの欠如である。
このようなデータセットを手作業で構築するのは、コードの臭いを特定するには、相当な開発専門知識と相当な時間的投資が必要であるため、非常に労力がかかる。
対照的に、自動生成されたデータセットはスケーラブルだが、ラベルの信頼性が低下し、データ品質が損なわれている。
この課題を克服するために、我々は、高品質なデータサンプルを用いたコード臭いデータセットを生成するための半自動的なアプローチを探索する。
具体的には、まず一連の自動生成規則を適用し、候補臭気サンプルを生成した。
次に、複数のメトリクスを使用して、データサンプルを自動で承認されたグループと手動でレビューしたグループにグループ化し、レビュー担当者があいまいなサンプルに集中できるようにしました。
さらに、構造化されたレビューガイドラインを確立し、手動検証プロセスを支援するアノテーションツールを開発した。
提案した半自動生成アプローチに基づいて,Long Method, Large Class, Feature Envyという,広く研究されている3つのコードの臭いをカバーする,オープンソースのコード臭いデータセットSACSを開発した。
各コードの臭いカテゴリーには1万以上のラベル付きサンプルが含まれている。
このデータセットは、コードの臭いの検出と自動リファクタリングに関する将来の研究を容易にするために、大規模でパブリックなベンチマークを提供する可能性がある。
関連論文リスト
- From Failure to Mastery: Generating Hard Samples for Tool-use Agents [40.331752086107265]
HardGenは、検証可能な推論を備えたハードツール使用トレーニングサンプルを生成するように設計された自動エージェントパイプラインである。
高度なツールとハードクエリにより、検証可能な複雑なChain-of-Thought(CoT)の生成が可能になる
私たちのコード、モデル、データセットは、将来の研究を促進するためにオープンソース化されます。
論文 参考訳(メタデータ) (2026-01-04T11:56:33Z) - OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - How Propense Are Large Language Models at Producing Code Smells? A Benchmarking Study [45.126233498200534]
コードの臭いを生成するための大規模言語モデルの妥当性を評価するためのベンチマークであるCodeSmellEvalを紹介する。
当社のベンチマークには、Propensity Smelly Score (PSC) と、メソッドレベルのコードの臭いを収集したデータセットであるCodeSmellDataが含まれている。
CodeSmellEvalの使用を実証するために,CodeLlamaとMistralの2つの最先端LLMを用いてケーススタディを行った。
論文 参考訳(メタデータ) (2024-12-25T21:56:35Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - DACOS-A Manually Annotated Dataset of Code Smells [4.753388560240438]
5,192のコードスニペットに対して10,267のアノテーションを含む手動注釈付きデータセットであるDACOSを提案する。
データセットは、多面的抽象化、複雑なメソッド、長いパラメータリストという、粒度の異なる3種類のコードの臭いをターゲットとしています。
私たちは、アノテーションがスニペットを1つずつ見てマークし、提供されたアノテーションを記録するのを助けるWebアプリケーションであるTagManを開発した。
論文 参考訳(メタデータ) (2023-03-15T16:13:40Z) - An Empirical Study on Predictability of Software Code Smell Using Deep
Learning Models [3.2973778921083357]
コードの臭いは、汚染されたものの表面的な兆候ですが、ソフトウェア記述のプラクティスという意味では違います。
近年の研究では、コードの臭いを伴うコードは、ソフトウェア開発サイクルの変化の確率が高くなることが多いことが観察されている。
我々は、8種類のコードの臭いを予測するために、ソースコードから抽出した機能の助けを借りて、コードの臭い予測モデルを開発した。
論文 参考訳(メタデータ) (2021-08-08T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。