論文の概要: SLICET5: Static Program Slicing using Language Models with Copy Mechanism and Constrained Decoding
- arxiv url: http://arxiv.org/abs/2509.17338v1
- Date: Mon, 22 Sep 2025 03:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:40:08.285646
- Title: SLICET5: Static Program Slicing using Language Models with Copy Mechanism and Constrained Decoding
- Title(参考訳): SLICET5: コピー機構と制約付きデコーディングを備えた言語モデルを用いた静的プログラムスライシング
- Authors: Pengfei He, Shaowei Wang, Tse-Hsun Chen,
- Abstract要約: 静的プログラムスライシングはソフトウェア工学の基本的な技術である。
ourtoolは静的プログラムスライシングをシーケンス・ツー・シーケンスタスクとして再構成する新しいスライシングフレームワークである。
ourtoolは、最先端のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 13.61350801915956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Static program slicing is a fundamental technique in software engineering. Traditional static slicing tools rely on parsing complete source code, which limits their applicability to real-world scenarios where code snippets are incomplete or unparsable. While recent research developed learning-based approaches to predict slices, they face critical challenges: (1) Inaccurate dependency identification, where models fail to precisely capture data and control dependencies between code elements; and (2) Unconstrained generation, where models produce slices with extraneous or hallucinated tokens not present in the input, violating the structural integrity of slices. To address these challenges, we propose \ourtool, a novel slicing framework that reformulates static program slicing as a sequence-to-sequence task using lightweight language models (e.g., CodeT5+). Our approach incorporates two key innovations. First, we introduce a copy mechanism that enables the model to more accurately capture inter-element dependencies and directly copy relevant tokens from the input, improving both dependency reasoning and generation constraint. Second, we design a constrained decoding process with (a) lexical constraint, restricting outputs to input tokens only, and (b) syntactic constraint, leveraging Tree Similarity of Edit Distance (TSED) monotonicity to detect structurally invalid outputs and discard them. We evaluate \ourtool on CodeNet and LeetCode datasets and show it consistently outperforms state-of-the-art baselines, improving ExactMatch scores by up to 27\%. Furthermore, \ourtool demonstrates strong performance on incomplete code, highlighting its robustness and practical utility in real-world development environments.
- Abstract(参考訳): 静的プログラムスライシングはソフトウェア工学の基本的な技術である。
従来の静的スライシングツールは、完全なソースコードのパースに依存しており、コードのスニペットが不完全あるいはパースできない現実のシナリオに適用される。
最近の研究では、スライスを予測するための学習ベースのアプローチが開発されているが、(1)不正確な依存関係の識別、(2)コード要素間の依存関係の正確な取得と制御に失敗するモデル、(2)非制約生成、(2)モデルが入力に存在しない外来トークンや幻覚トークンのスライスを生成し、スライスの構造的整合性に違反する、といった重要な課題に直面している。
これらの課題に対処するために、軽量言語モデル(例えば、CodeT5+)を用いて静的プログラムスライシングをシーケンス・ツー・シーケンスタスクとして再構成する新しいスライシングフレームワークである \ourtool を提案する。
このアプローチには2つの重要なイノベーションが組み込まれています。
まず、モデルが要素間の依存関係をより正確にキャプチャし、関連するトークンを直接入力からコピーできるようにするコピー機構を導入し、依存性推論と生成制約の両方を改善した。
第二に、制約付き復号法を設計する。
(a)語彙制約、入力トークンのみに出力を制限する、
b)構文制約。TSED(Tree similarity of Edit Distance)の単調性を利用して、構造的に無効な出力を検出し、それらを破棄する。
CodeNetとLeetCodeのデータセット上で‘ourtool’を評価し、最先端のベースラインを一貫して上回り、ExactMatchスコアを最大27倍改善します。
さらに、 \ourtoolは不完全なコードに対して強力なパフォーマンスを示し、実際の開発環境での堅牢性と実用性を強調している。
関連論文リスト
- SLICEMATE: Accurate and Scalable Static Program Slicing via LLM-Powered Agents [11.069304685402642]
SliceMateはLarge Language Model (LLM)エージェントを利用した新しい静的プログラムスライシングソリューションである。
明示的な依存グラフ構築の必要性を回避し、より優れたスライシング精度を実現する。
厳密な評価のために,2200のJavaプログラムとPythonプログラムを手動でアノテートした新しい高品質ベンチマークであるSliceBenchを構築した。
論文 参考訳(メタデータ) (2025-07-25T04:51:47Z) - Combining Constrained and Unconstrained Decoding via Boosting: BoostCD and Its Application to Information Extraction [11.996681571362744]
Boosted Constrained Decodingは制約付きと制約なしのデコーディングを2つのフェーズで組み合わせる。
閉鎖情報抽出に適用することで,BoostCDのパワーを実証する。
論文 参考訳(メタデータ) (2025-06-17T18:16:17Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Neural Program Repair with Program Dependence Analysis and Effective
Filter Mechanism [37.70518599085677]
単行Javaバグを修正するために、一般的な事前学習言語モデルに適応する、アプローチと呼ばれる新しいニューラルプログラム修復フレームワークを提案する。
我々は,プログラムスライシングを用いて,与えられたバギー文に直接関連した文脈情報を,対応するプログラム依存グラフから補修材料として抽出する試みを行う。
最先端のベースラインと比較して,5つのベンチマークに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-05-16T09:43:04Z) - A Syntax-Guided Multi-Task Learning Approach for Turducken-Style Code
Generation [19.489202790935902]
本稿では,構文誘導型マルチタスク学習手法TurduckenGenを提案する。
具体的には、まず最初に型情報をコードトークンに明示的に付加し、構文制約の表現をキャプチャします。
次に,構文制約表現を用いたコード生成を補助タスクとして形式化し,モデルの構文制約学習を可能にする。
論文 参考訳(メタデータ) (2023-03-09T06:22:07Z) - Precise Learning of Source Code Contextual Semantics via Hierarchical
Dependence Structure and Graph Attention Networks [28.212889828892664]
階層的な依存関係を組み込んだ新しいソースコードモデルを提案する。
本稿では,基本ブロックの構文構造,すなわち対応するASTをソースコードモデルに導入し,十分な情報を提供する。
その結果,本モデルではパラメータのスケールを50%削減し,プログラム分類タスクの精度を4%向上させることができた。
論文 参考訳(メタデータ) (2021-11-20T04:03:42Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。