論文の概要: Auto-SPT: Automating Semantic Preserving Transformations for Code
- arxiv url: http://arxiv.org/abs/2512.06042v1
- Date: Fri, 05 Dec 2025 04:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.165227
- Title: Auto-SPT: Automating Semantic Preserving Transformations for Code
- Title(参考訳): Auto-SPT:コードのセマンティック保存変換を自動化する
- Authors: Ashish Hooda, Mihai Christodorescu, Chuangang Ren, Aaron Wilson, Kassem Fawaz, Somesh Jha,
- Abstract要約: コードクローン検出のための機械学習モデルは、2つのコードが意味論的に等価であるかどうかを決定する。
これらのモデルは、クリーンで構造化されたコードデータセットに基づいて主にトレーニングされていますが、現実のコードは、さまざまなセマンティック保存変換を実行します。
コードのための合成データ生成を自動構築する新しいフレームワークであるAuto-SPTを提案する。
- 参考スコア(独自算出の注目度): 27.682216164726967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) models for code clone detection determine whether two pieces of code are semantically equivalent, which in turn is a key building block for software-engineering tasks like refactoring and security tasks like vulnerability and malware detection. While these models are predominantly trained on clean, structured code datasets, real-world code often undergoes a variety of semantic-preserving transformations, including refactoring, minification, automated formatting, and compiler optimizations. To address this critical gap between training and test data, we propose Auto-SPT, a novel framework to automatically construct synthetic-data generators for code. Auto-SPT is designed to produce Semantic Preserving Transformations (SPTs) that alter a program's syntactic structure while preserving its functionality and is instantiated on top of Large Language Models (LLMs). In particular, we use LLMs to craft a diverse set of SPTs, generate strong implementations for these SPTs, and compose them to result into strong transformations. Our formal analysis shows that the diversity of SPTs impacts the strength of their composition. We then empirically demonstrate that Auto-SPT generates more diverse SPTs than existing approaches and these SPTs significantly drop the performance of state-of-the-art code clone detectors. Further experiments show Auto-SPT can be used to enhance code datasets for training, to produce code-clone detection models that are robust to real-world, adversarial code transformations.
- Abstract(参考訳): コードクローン検出のための機械学習(ML)モデルは、2つのコードが意味論的に等価かどうかを判断する。
これらのモデルは、クリーンで構造化されたコードデータセットに基づいて主にトレーニングされているが、現実のコードは、リファクタリング、最小化、自動フォーマット、コンパイラ最適化など、さまざまなセマンティックな変換を行うことが多い。
トレーニングデータとテストデータの間に生じる重要なギャップに対処するために,コード用の合成データ生成を自動構築する新しいフレームワークであるAuto-SPTを提案する。
Auto-SPTは、機能を保持しながらプログラムの構文構造を変更し、Large Language Models (LLM)の上にインスタンス化されるセマンティック保存変換(SPT)を作成するように設計されている。
特に,LSMを用いて多種多様なSPTを作成し,これらのSPTの強力な実装を生成し,強力な変換をもたらすように構成する。
我々の公式な分析は、SPTの多様性がそれらの組成の強さに影響を及ぼすことを示している。
そこで我々は,Auto-SPTが既存の手法よりも多様なSPTを生成することを実証的に示し,これらのSPTは最先端のコードクローン検出器の性能を著しく低下させることを示した。
さらに実験によると、Auto-SPTはトレーニング用のコードデータセットを強化し、実世界の逆コード変換に対して堅牢なコードクローン検出モデルを生成するために使用することができる。
関連論文リスト
- From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - Benchmarking Correctness and Security in Multi-Turn Code Generation [41.75392001830794]
MTSecは,マルチターン符号化シナリオにおける正当性とセキュリティを評価する最初のベンチマークである。
MT-Secでは32のオープンソースモデルとクローズドソースモデルと3つのエージェントスキャフォールディングを評価した。
エージェント生成スキャフォールディングは単一ターンコード生成性能を高めるが,マルチターン評価にはあまり有効ではないことがわかった。
論文 参考訳(メタデータ) (2025-10-13T01:20:46Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [66.43738008739555]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - AutoPLC: Generating Vendor-Aware Structured Text for Programmable Logic Controllers [9.209415852653386]
AutoPLCは、ベンダーが認識するSTコードを自動的に自然言語要求から生成できるフレームワークである。
Siemens TIA PortalとCODESYSプラットフォーム向けに実装されている。
AutoPLCは914タスクベンチマークで90%以上のコンパイル成功を実現しています。
論文 参考訳(メタデータ) (2024-12-03T12:05:56Z) - Training LLMs for Generating IEC 61131-3 Structured Text with Online Feedback [0.0]
本稿では,IEC 61131-3 構造化テキスト (ST) コード生成のための微調整 LLM へのアプローチを提案する。
このフレームワークは産業自動化アプリケーションに非常に適しており、最先端のモデルより優れている。
論文 参考訳(メタデータ) (2024-10-29T15:54:09Z) - TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation [9.477734501499274]
コード埋め込みを対照的な学習方法で学習する新しいフレームワークであるTransformCodeを提案する。
我々のフレームワークはエンコーダに依存しない言語に依存しないので、どんなエンコーダモデルでも活用でき、どんなプログラミング言語でも扱える。
論文 参考訳(メタデータ) (2023-11-10T09:05:23Z) - CodeCoT: Tackling Code Syntax Errors in CoT Reasoning for Code
Generation [6.139760107605468]
チェーン・オブ・シント(CoT)は、複雑な推論タスクにおいて特に有効であるとして、NLPの画期的なツールとして登場した。
コード生成のための自己検査プロセスとCoTを統合したCode Chain-of-Thought(CodeCoT)を提案する。
論文 参考訳(メタデータ) (2023-08-17T04:58:51Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。