論文の概要: Excision Score: Evaluating Edits with Surgical Precision
- arxiv url: http://arxiv.org/abs/2510.21537v1
- Date: Fri, 24 Oct 2025 15:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.436296
- Title: Excision Score: Evaluating Edits with Surgical Precision
- Title(参考訳): Excision Score: 外科的精度で編集を評価する
- Authors: Nikolai Gruzinov, Ksenia Sycheva, Earl T. Barr, Alex Bezzubov,
- Abstract要約: 修正類似性問題を定式化し、幅広い機械学習評価問題を統一する。
BLEUのような一般的なペアワイズ尺度は、スコアが共有コンテンツに支配されているため、これらの基準を満たさないことを示す。
提案手法は,長大な共通部分列を演算する新しい静的測度であるExcision Score (ES) を提案する。
- 参考スコア(独自算出の注目度): 2.352496216126117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many tasks revolve around editing a document, whether code or text. We formulate the revision similarity problem to unify a wide range of machine learning evaluation problems whose goal is to assess a revision to an existing document. We observe that revisions usually change only a small portion of an existing document, so the existing document and its immediate revisions share a majority of their content. We formulate five adequacy criteria for revision similarity measures, designed to align them with human judgement. We show that popular pairwise measures, like BLEU, fail to meet these criteria, because their scores are dominated by the shared content. They report high similarity between two revisions when humans would assess them as quite different. This is a fundamental flaw we address. We propose a novel static measure, Excision Score (ES), which computes longest common subsequence (LCS) to remove content shared by an existing document with the ground truth and predicted revisions, before comparing only the remaining divergent regions. This is analogous to a surgeon creating a sterile field to focus on the work area. We use approximation to speed the standard cubic LCS computation to quadratic. In code-editing evaluation, where static measures are often used as a cheap proxy for passing tests, we demonstrate that ES surpasses existing measures. When aligned with test execution on HumanEvalFix, ES improves over its nearest competitor, SARI, by 12% Pearson correlation and by >21% over standard measures like BLEU. The key criterion is invariance to shared context; when we perturb HumanEvalFix with increased shared context, ES' improvement over SARI increases to 20% and >30% over standard measures. ES also handles other corner cases that other measures do not, such as correctly aligning moved code blocks, and appropriately rewarding matching insertions or deletions.
- Abstract(参考訳): 多くのタスクは、コードであれテキストであれ、ドキュメントの編集を中心に展開する。
我々は,既存の文書の改訂を評価することを目的とした,幅広い機械学習評価問題を統一するために,修正類似性問題を定式化する。
通常、改訂は既存の文書のごく一部しか変更されないので、既存の文書とその即時修正はコンテンツの大部分を共有している。
我々は、人間による判断に合わせるために、改訂類似度対策の5つの妥当性基準を定式化した。
BLEUのような一般的なペアワイズ尺度は、スコアが共有コンテンツに支配されているため、これらの基準を満たさないことを示す。
彼らは、人間がそれらを全く異なるものとして評価する2つのリビジョンの間に高い類似性を報告している。
これは私たちが対処する根本的な欠陥です。
そこで我々は,既存の文書が共有するコンテンツを基本事実と予測して削除し,残余の分岐領域のみと比較する,新しい静的測度であるExcision Score (ES)を提案する。
これは、作業領域に集中するために不妊フィールドを作成する外科医に似ている。
近似を用いて標準立方体LCS計算を2次に高速化する。
コード編集評価では、静的測度がテストをパスするための安価なプロキシとしてしばしば使用されるが、ESが既存の測度を超えることを示す。
HumanEvalFix上でのテスト実行に合わせると、ESは最も近い競合であるSARIよりも12%Pearson相関、BLEUのような標準指標よりも21%改善している。
共有コンテキストを増大させたHumanEvalFixを摂動すると、SARIよりもESの改善が20%、標準値より30%向上する。
ESは、移動したコードブロックを正しく整列したり、一致した挿入や削除を適切に報酬するなど、他の手段がしない他のコーナーケースも扱う。
関連論文リスト
- The Medium Is Not the Message: Deconfounding Document Embeddings via Linear Concept Erasure [98.71456610527598]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。
本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-07-01T23:17:12Z) - Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - Revisiting Meta-evaluation for Grammatical Error Correction [14.822205658480813]
SEEDAはGECメタ評価のための新しいデータセットである。
人間の評価を2つの異なる粒度で補正する。
その結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-05T05:53:09Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction [32.44051877804761]
チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。
我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
論文 参考訳(メタデータ) (2023-05-18T08:57:17Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Integrating Rankings into Quantized Scores in Peer Review [61.27794774537103]
ピアレビューでは、レビュアーは通常、論文のスコアを提供するように求められます。
この問題を軽減するため、カンファレンスはレビュアーにレビューした論文のランキングを付加するように求め始めている。
このランキング情報を使用するための標準的な手順はなく、エリアチェアは異なる方法でそれを使用することができる。
我々は、ランキング情報をスコアに組み込むために、原則化されたアプローチを取る。
論文 参考訳(メタデータ) (2022-04-05T19:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。