論文の概要: BDiff: Block-aware and Accurate Text-based Code Differencing
- arxiv url: http://arxiv.org/abs/2510.21094v1
- Date: Fri, 24 Oct 2025 02:12:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.359308
- Title: BDiff: Block-aware and Accurate Text-based Code Differencing
- Title(参考訳): BDiff: ブロック対応でテキストベースのコードディフレクションの正確性
- Authors: Yao Lu, Wanwei Liu, Tanghaoran Zhang, Kang Yang, Yang Zhang, Wenyu Xu, Longfei Sun, Xinjun Mao, Shuzheng Gao, Michael R. Lyu,
- Abstract要約: BDiffは2種類のブロックレベルEAと5種類のラインレベルEAを識別できるテキストベースの差分アルゴリズムである。
BDiffは、競争力のあるランタイムパフォーマンスを維持しながら、ベースラインツールよりも高品質な差別化結果を生成する。
- 参考スコア(独自算出の注目度): 33.898222800990624
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Code differencing is a fundamental technique in software engineering practice and research. While researchers have proposed text-based differencing techniques capable of identifying line changes over the past decade, existing methods exhibit a notable limitation in identifying edit actions (EAs) that operate on text blocks spanning multiple lines. Such EAs are common in developers' practice, such as moving a code block for conditional branching or duplicating a method definition block for overloading. Existing tools represent such block-level operations as discrete sequences of line-level EAs, compelling developers to manually correlate them and thereby substantially impeding the efficiency of change comprehension. To address this issue, we propose BDiff, a text-based differencing algorithm capable of identifying two types of block-level EAs and five types of line-level EAs. Building on traditional differencing algorithms, we first construct a candidate set containing all possible line mappings and block mappings. Leveraging the Kuhn-Munkres algorithm, we then compute the optimal mapping set that can minimize the size of the edit script (ES) while closely aligning with the original developer's intent. To validate the effectiveness of BDiff, we selected five state-of-the-art tools, including large language models (LLMs), as baselines and adopted a combined qualitative and quantitative approach to evaluate their performance in terms of ES size, result quality, and running time. Experimental results show that BDiff produces higher-quality differencing results than baseline tools while maintaining competitive runtime performance. Our experiments also show the unreliability of LLMs in code differencing tasks regarding result quality and their infeasibility in terms of runtime efficiency. We have implemented a web-based visual differencing tool.
- Abstract(参考訳): コードの相違は、ソフトウェア工学の実践と研究における基本的なテクニックである。
研究者らは、過去10年間に行変更を識別できるテキストベースの差分法を提案してきたが、既存の手法では、複数の行にまたがるテキストブロックで動作する編集動作(EA)を識別する際、顕著な制限が示されている。
このようなEAは、条件分岐のためのコードブロックの移動や、オーバーロードのためのメソッド定義ブロックの重複など、開発者のプラクティスでは一般的です。
既存のツールは、そのようなブロックレベルの操作をラインレベルのEAの離散シーケンスとして表現し、開発者がそれらを手作業で相関させ、変更理解の効率を大幅に損なう。
そこで本研究では,2種類のブロックレベルEAと5種類のラインレベルEAを識別可能なテキストベースの差分アルゴリズムであるBDiffを提案する。
従来の差分アルゴリズムに基づいて、まず、可能なすべてのラインマッピングとブロックマッピングを含む候補セットを構築する。
Kuhn-Munkresアルゴリズムを利用することで、編集スクリプト(ES)のサイズを最小化しつつ、元の開発者の意図と密に一致させることができる最適なマッピングセットを計算します。
BDiffの有効性を検証するため,大規模言語モデル(LLM)を含む5つの最先端ツールをベースラインとして選択し,ESサイズ,結果品質,実行時間の観点から評価を行うための質的,定量的アプローチを採用した。
実験の結果,BDiffは,競争力のあるランタイム性能を維持しながら,ベースラインツールよりも高品質な差分結果を生成することがわかった。
また,コードにおけるLCMの信頼性の欠如が,実行効率の面で結果の質や実現可能性の相違を示唆する実験を行った。
我々はWebベースの視覚的区別ツールを実装した。
関連論文リスト
- Functional Consistency of LLM Code Embeddings: A Self-Evolving Data Synthesis Framework for Benchmarking [23.980033692974278]
埋め込みモデルは、クラスタリング、検索、特徴抽出といったタスクにおいて強力な性能を示し、生成モデルやクロスエンコーダよりも計算上の利点を提供している。
本稿では,多種多様なベンチマークを構築するために,関数指向コード自己進化という新しいデータ合成フレームワークを提案する。
私たちのフレームワークは、単一のコードインスタンスから4つのユニークなバリエーションを生成します。
論文 参考訳(メタデータ) (2025-08-27T04:17:02Z) - Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。
提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-08-27T03:15:53Z) - Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [3.9914181590063884]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。
プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文 参考訳(メタデータ) (2025-07-30T14:49:30Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [66.43738008739555]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing [27.034072044001736]
大規模マルチモーダル言語モデル(MLLM)は、自然言語処理と視覚的理解に革命をもたらした。
現在の知識編集評価はスコープが限られており、バイアスがある可能性がある。
複数のデータセットから8つのタスクからなる総合的なベンチマークであるComprehendEditを紹介する。
論文 参考訳(メタデータ) (2024-12-17T11:41:49Z) - Advancing Code Coverage: Incorporating Program Analysis with Large Language Models [8.31978033489419]
難解な分岐に到達可能なテストを生成する新しい技術である TELPA を提案する。
27のオープンソースPythonプロジェクトに対する実験結果から,TELPAは最先端のSBSTやLLMベースの技術よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-04-07T14:08:28Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - Composable Text Controls in Latent Space with ODEs [97.12426987887021]
本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための,新しい効率的なアプローチを提案する。
事前学習したLMを効率よく適応することで、サンプルベクトルを所望のテキストシーケンスにデコードする。
実験により、我々のアプローチ内でこれらの演算子を構成すると、高品質なテキストの生成や編集が可能であることが示された。
論文 参考訳(メタデータ) (2022-08-01T06:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。