論文の概要: Diff-XYZ: A Benchmark for Evaluating Diff Understanding
- arxiv url: http://arxiv.org/abs/2510.12487v1
- Date: Tue, 14 Oct 2025 13:23:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.325331
- Title: Diff-XYZ: A Benchmark for Evaluating Diff Understanding
- Title(参考訳): Diff-XYZ: ディフ理解の評価ベンチマーク
- Authors: Evgeniy Glukhov, Michele Conti, Egor Bogomolov, Yaroslav Golubev, Alexander Bezzubov,
- Abstract要約: Diff-XYZは、3つの教師付きタスクを持つコード差分理解のためのコンパクトなベンチマークである。
ベンチマークのインスタンスは、$langle textitoldコード、textitnewコード、textitdiff rungle$をCommitPackFTの実際のコミットから引き出す。
- 参考スコア(独自算出の注目度): 38.94055952813874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable handling of code diffs is central to agents that edit and refactor repositories at scale. We introduce Diff-XYZ, a compact benchmark for code-diff understanding with three supervised tasks: apply (old code $+$ diff $\rightarrow$ new code), anti-apply (new code $-$ diff $\rightarrow$ old code), and diff generation (new code $-$ old code $\rightarrow$ diff). Instances in the benchmark are triples $\langle \textit{old code}, \textit{new code}, \textit{diff} \rangle$ drawn from real commits in CommitPackFT, paired with automatic metrics and a clear evaluation protocol. We use the benchmark to do a focused empirical study of the unified diff format and run a cross-format comparison of different diff representations. Our findings reveal that different formats should be used depending on the use case and model size. For example, representing diffs in search-replace format is good for larger models in the diff generation scenario, yet not suited well for diff analysis and smaller models. The Diff-XYZ benchmark is a reusable foundation for assessing and improving diff handling in LLMs that can aid future development of diff formats and models editing code. The dataset is published on HuggingFace Hub: https://huggingface.co/datasets/JetBrains-Research/diff-xyz.
- Abstract(参考訳): コードのディファクトの信頼性の高い処理は、大規模なリポジトリの編集とリファクタリングを行うエージェントの中心である。
apply (old code $+$ diff $\rightarrow$ new code)、anti-apply (new code $-$ diff $\rightarrow$ old code)、diff generation (new code $-$ old code $\rightarrow$ diff)である。
ベンチマークのインスタンスはトリプルs $\langle \textit{old code}, \textit{new code}, \textit{diff} \rangle$で、CommitPackFTの実際のコミットから引き出された。
我々は、このベンチマークを用いて、統一diffフォーマットの集中的な実験を行い、異なるdiff表現のクロスフォーマット比較を実行する。
この結果から,ユースケースやモデルサイズによって異なるフォーマットを使用する必要があることが明らかとなった。
例えば、差分を検索置換形式で表現することは、差分生成シナリオにおけるより大きなモデルには適しているが、差分解析やより小さなモデルには適していない。
Diff-XYZ ベンチマークは LLM における差分処理の評価と改善のための再利用可能な基盤である。
データセットはHuggingFace Hubで公開されている。
関連論文リスト
- Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls [83.89771461061903]
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
意味論的に等価なコンテンツを持つ冗長な状態による$textitover-Exploration$と、検証器のスコアリングにおける高いばらつきに起因する$textitunder-Exploration$である。
各種木探索アルゴリズムに適合するフレキシブルなプラグアンドプレイシステムであるFETCHを提案する。
論文 参考訳(メタデータ) (2025-02-16T16:12:01Z) - Toward Interactive Optimization of Source Code Differences: An Empirical Study of Its Performance [1.313675711285772]
ソースコードの違い(差分)を最適化するためのインタラクティブなアプローチを提案する。
ユーザは、マッチすべきではなく、マッチすべきでない部分や、マッチすべきでない部分に対するフィードバックを提供することができる。
GitHubの23のプロジェクトの結果は、最適でない差分のうち92%が、理想的なケースでは4つ未満のフィードバックアクションで対処可能であることを確認している。
論文 参考訳(メタデータ) (2024-09-20T15:43:55Z) - Describing Differences in Image Sets with Natural Language [101.80939666230168]
モデルの振る舞いを理解し、データセットを分析するためには、セットレベルの差異を識別することが不可欠である。
本稿では、まずイメージをキャプションし、言語モデルに差分記述を提案するVisDiffを紹介する。
データセットとモデルにこれまで知られていなかった興味深い違いを見つけることができ、微妙な洞察を明らかにする上で、VisDiffの実用性を示すことができます。
論文 参考訳(メタデータ) (2023-12-05T18:59:16Z) - Boosting Commit Classification with Contrastive Learning [0.8655526882770742]
コミット分類(CC)は、ソフトウェアのメンテナンスにおいて重要なタスクである。
対照的な学習に基づくコミット分類フレームワークを提案する。
われわれのフレームワークはCCの問題をシンプルに解決できるが、スプリットショットのシナリオでは効果的に解決できる。
論文 参考訳(メタデータ) (2023-08-16T10:02:36Z) - Augmenting Diffs With Runtime Information [53.22981451758425]
Collector-Sahabは、コード差分をランタイム差分情報で拡張するツールである。
We run Collector-Sahab on 584 code diffs for Defects4J bugs and found it successfully augment the code diff for 95% (555/584)。
論文 参考訳(メタデータ) (2022-12-20T16:33:51Z) - Beyond Invariance: Test-Time Label-Shift Adaptation for Distributions
with "Spurious" Correlations [44.99833362998488]
テスト時のデータ分散の変化は、予測モデルのパフォーマンスに有害な影響を及ぼす可能性がある。
本研究では,未ラベルサンプルに適用したEMを用いて,共同分布の$p(y, z)$の変化に適応するテストタイムラベルシフト補正を提案する。
論文 参考訳(メタデータ) (2022-11-28T18:52:33Z) - LMdiff: A Visual Diff Tool to Compare Language Models [25.229215469012637]
LMdiffは異なる2つのモデルの確率分布を視覚的に比較するツールである。
複数のケーススタディにまたがって仮説生成におけるLMdiffの適用性を示す。
論文 参考訳(メタデータ) (2021-11-02T13:17:20Z) - Understanding Dataset Difficulty with $\mathcal{V}$-Usable Information [67.25713071340518]
データセットの難しさを推定するには、通常、最先端のモデルを人間と比較する。
我々は$mathcalV$-$textitusable情報がないとしてデータセットの難しさを補っている。
また、個々のインスタンスの難易度を測定するために、$textitpointwise $mathcalV$-information$ (PVI)を導入します。
論文 参考訳(メタデータ) (2021-10-16T00:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。