論文の概要: SemRep: Generative Code Representation Learning with Code Transformations
- arxiv url: http://arxiv.org/abs/2603.13640v1
- Date: Fri, 13 Mar 2026 22:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.310263
- Title: SemRep: Generative Code Representation Learning with Code Transformations
- Title(参考訳): SemRep: コード変換による生成的コード表現学習
- Authors: Weichen Li, Jiamin Song, Bogdan Alexandru Stoica, Arav Dhoot, Gabriel Ryan, Shengyu Fu, Kexin Pei,
- Abstract要約: SemRepは、生成的コード表現学習を通じてコード変換を改善するフレームワークである。
我々の重要な洞察は、セマンティクス保存変換を中間表現として利用することである。
多様なコード変換の探索の改善により、SemRepは特に進化的検索に適している。
- 参考スコア(独自算出の注目度): 5.790824314596833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code transformation is a foundational capability in the software development process, where its effectiveness relies on constructing a high-quality code representation to characterize the input code semantics and guide the transformation. Existing approaches treat code transformation as an end-to-end learning task, leaving the construction of the representation needed for semantic reasoning implicit in model weights or relying on rigid compiler-level abstractions. We present SemRep, a framework that improves code transformation through generative code representation learning. Our key insight is to employ the semantics-preserving transformations as the intermediate representation, which serves as both a generative mid-training task and the guidance for subsequent instruction-specific code transformations. Across general code editing and optimization tasks (e.g., GPU kernel optimization), SemRep outperforms the extensively finetuned baselines with strictly the same training budget by 6.9% in correctness, 1.1x in performance, 13.9% in generalization, and 6.7% in robustness. With the improved exploration of diverse code transformations, SemRep is particularly amenable to evolutionary search. Combined with an evolutionary coding agent, SemRep finds optimizations that 685B larger-weight baselines fail to discover while achieving the same performance with 25% less inference compute.
- Abstract(参考訳): コード変換はソフトウェア開発プロセスの基本機能であり、その効果は入力コードの意味を特徴づけ、変換を導くための高品質なコード表現の構築に依存します。
既存のアプローチでは、コード変換をエンドツーエンドの学習タスクとして扱い、モデルの重み付けや厳密なコンパイラレベルの抽象化に依存する意味論的推論に必要な表現の構築を残している。
本稿では、生成的コード表現学習によるコード変換を改善するフレームワークであるSemRepを紹介する。
我々の重要な洞察は、セマンティクス保存変換を中間表現として利用することであり、これは生成的な中間訓練タスクと、その後の命令固有のコード変換のガイダンスの両方に役立ちます。
一般的なコード編集と最適化タスク(GPUカーネルの最適化など)全体にわたって、SemRepは、厳密なトレーニング予算が6.9%、パフォーマンスが1.1倍、一般化が13.9%、堅牢性が6.7%で、広範囲に調整されたベースラインのパフォーマンスを向上している。
多様なコード変換の探索の改善により、SemRepは特に進化的検索に適している。
進化的コーディングエージェントと組み合わせて、SemRepは685B以上の重み付けベースラインが発見できず、25%の推論計算で同じ性能を達成することを最適化する。
関連論文リスト
- ChangeGuard: Validating Code Changes via Pairwise Learning-Guided Execution [16.130469984234956]
ChangeGuardは、学習誘導型実行を使用して、修正された関数の実行動作を比較するアプローチである。
提案手法は,77.1%の精度で,69.5%のリコールで意味的変化を識別する。
論文 参考訳(メタデータ) (2024-10-21T15:13:32Z) - A Unified Framework for Automated Code Transformation and Pragma Insertion [5.669524030828314]
高レベルの合成、ソース・ソース・コンパイラ、およびプラグマ挿入のための様々な設計空間探索技術により、生成された設計結果の品質が大幅に向上した。
これらのツールは、開発時間を短縮し、パフォーマンスを向上するといった利点を提供する。
しかしながら、高品質な結果を達成するには、通常、個別または前処理ステップとして実行される、追加の手動コード変換とタイリング選択が必要になることが多い。
論文 参考訳(メタデータ) (2024-05-05T21:41:43Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - A Closer Look into Transformer-Based Code Intelligence Through Code Transformation: Challenges and Opportunities [54.039855851891815]
トランスフォーマーベースのモデルは、多くのインテリジェントコーディングタスクにおいて最先端のパフォーマンスを示している。
意味保存型コード変換がTransformerの性能に与える影響を実証研究する。
論文 参考訳(メタデータ) (2022-07-09T15:02:39Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。