Fugu-MT 論文翻訳(概要): Metamorphic Testing of Deep Code Models: A Systematic Literature Review

論文の概要: Metamorphic Testing of Deep Code Models: A Systematic Literature Review

arxiv url: http://arxiv.org/abs/2507.22610v1
Date: Wed, 30 Jul 2025 12:25:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-31 16:14:18.185679
Title: Metamorphic Testing of Deep Code Models: A Systematic Literature Review
Title（参考訳）: ディープコードモデルのメタモルフィックテスト: 体系的文献レビュー
Authors: Ali Asgari, Milan de Koning, Pouria Derakhshanfar, Annibale Panichella,
Abstract要約: コードインテリジェンス用に設計された大規模言語モデルとディープラーニングモデルは、ソフトウェア工学分野に革命をもたらした。これらのモデルは、コード補完、欠陥検出、コード要約といったタスクにおいて、高い精度でソースコードとソフトウェアアーチファクトを処理できる。強靭性は、異なる条件下で異なる結果が得られるため、ディープ・コード・モデルにとって重要な品質特性であり続けている。
参考スコア（独自算出の注目度）: 9.09091334696889
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models and deep learning models designed for code intelligence have revolutionized the software engineering field due to their ability to perform various code-related tasks. These models can process source code and software artifacts with high accuracy in tasks such as code completion, defect detection, and code summarization; therefore, they can potentially become an integral part of modern software engineering practices. Despite these capabilities, robustness remains a critical quality attribute for deep-code models as they may produce different results under varied and adversarial conditions (e.g., variable renaming). Metamorphic testing has become a widely used approach to evaluate models' robustness by applying semantic-preserving transformations to input programs and analyzing the stability of model outputs. While prior research has explored testing deep learning models, this systematic literature review focuses specifically on metamorphic testing for deep code models. By studying 45 primary papers, we analyze the transformations, techniques, and evaluation methods used to assess robustness. Our review summarizes the current landscape, identifying frequently evaluated models, programming tasks, datasets, target languages, and evaluation metrics, and highlights key challenges and future directions for advancing the field.
Abstract（参考訳）: コードインテリジェンス用に設計された大規模言語モデルとディープラーニングモデルは、さまざまなコード関連タスクを実行する能力によって、ソフトウェア工学分野に革命をもたらした。これらのモデルは、コード補完、欠陥検出、コードの要約といったタスクにおいて、ソースコードとソフトウェアアーチファクトを高い精度で処理することができるため、現代のソフトウェアエンジニアリングプラクティスにおいて不可欠な部分になる可能性がある。これらの機能にもかかわらず、ロバスト性は、異なる条件(例えば変数リネーム)の下で異なる結果が得られるため、ディープ・コード・モデルにとって重要な品質特性であり続けている。メタモルフィックテストは、入力プログラムに意味保存変換を適用し、モデル出力の安定性を分析することによって、モデルの堅牢性を評価するために広く使われているアプローチとなった。これまでの研究では、ディープラーニングモデルのテストについて検討されてきたが、この体系的な文献レビューは、ディープコードモデルのメタモルフィックテストに特化している。 45の主論文を調査し,ロバスト性評価に用いる変換,技術,評価方法について検討した。本稿では、現状を概観し、頻繁な評価モデル、プログラミングタスク、データセット、ターゲット言語、評価指標を特定し、フィールドを前進させる上で重要な課題と今後の方向性を明らかにする。

関連論文リスト

DeepCodeProbe: Towards Understanding What Models Trained on Code Learn [13.135962181354465]
本稿では,MLモデルの構文と表現学習能力を調べるための探索手法であるDeepCodeProbeを紹介する。コードクローン検出,コード要約,コメント生成の最先端モデルにDeepCodeProbeを適用した。発見によると、小さなモデルは抽象構文表現をキャプチャするが、プログラミング言語の構文を完全に把握する能力は限られている。
論文参考訳（メタデータ） (2024-07-11T23:16:44Z)
A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2024-02-10T11:14:53Z)
Investigating Reproducibility in Deep Learning-Based Software Fault Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文参考訳（メタデータ） (2024-02-08T13:00:18Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
On the Reliability and Explainability of Language Models for Program Generation [15.569926313298337]
自動プログラム生成手法の能力と限界について検討する。私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
論文参考訳（メタデータ） (2023-02-19T14:59:52Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning [65.268245109828]
視覚、言語、音声などのデータに富む領域では、ディープラーニングが高性能なタスク固有モデルを提供するのが一般的である。リソース制限されたドメインでのディープラーニングは、(i)限られたデータ、(ii)制約付きモデル開発コスト、(iii)効果的な微調整のための適切な事前学習モデルの欠如など、多くの課題に直面している。モデル再プログラミングは、ソースドメインから十分に訓練されたモデルを再利用して、モデル微調整なしでターゲットドメインのタスクを解くことで、リソース効率のよいクロスドメイン機械学習を可能にする。
論文参考訳（メタデータ） (2022-02-22T02:33:54Z)
Automated Creation and Human-assisted Curation of Computable Scientific Models from Code and Text [2.3746609573239756]
ドメインエキスパートは、コードに詳しくなければ、科学的モデルの実装を完全に理解することはできない。我々は,科学モデルの自動作成と人手によるキュレーションのためのシステムを開発した。本研究では,NASAのハイパーソニック・エアロダイナミックス(Hypersonic Aerodynamics)のウェブサイトから得られたコードと関連テキストのデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2022-01-28T17:31:38Z)
DirectDebug: Automated Testing and Debugging of Feature Models [55.41644538483948]
変数モデル(例えば、特徴モデル)は、ソフトウェアアーティファクトの変数と共通性を表現する一般的な方法である。複雑でしばしば大規模な機能モデルは欠陥になりうる、すなわち、ソフトウェアアーチファクトの期待される変動特性を表現しない。
論文参考訳（メタデータ） (2021-02-11T11:22:20Z)
Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文参考訳（メタデータ） (2020-06-22T21:56:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。