論文の概要: EditPropBench: Measuring Factual Edit Propagation in Scientific Manuscripts
- arxiv url: http://arxiv.org/abs/2605.02083v2
- Date: Tue, 05 May 2026 02:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.326497
- Title: EditPropBench: Measuring Factual Edit Propagation in Scientific Manuscripts
- Title(参考訳): EditPropBench: 科学写本におけるFactual Edit PropBenchの測定
- Authors: Garvin Kruthof,
- Abstract要約: 科学的写本のローカルな事実編集は、しばしば非ローカルな修正義務を創出する。
最近のarXiv cs.CLベンチマークとデータセット論文の監査では、37.2%の論文で事実に依存した質的主張が見つかった。
LLMエディタが依存する原稿クレームを通じて実際の編集を伝播するかどうかを測定するベンチマークであるEditPropBenchを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Local factual edits in scientific manuscripts often create non-local revision obligations. If a dataset changes from 215 to 80 documents, claims such as 'medium-scale' or 'a few hundred items' may also become stale, even though they do not repeat the edited number. In an audit of recent arXiv cs.CL benchmark and dataset papers, we find fact-dependent qualitative claims in 37.2% of papers, suggesting that this dependency pattern is common in the target genre. We introduce EditPropBench, a benchmark for measuring whether LLM editors propagate factual edits through dependent manuscript claims. Each item contains an ML/NLP-style synthetic manuscript, a targeted edit, and a controlled fact graph with sentence-level labels for direct targets, required downstream updates, and unrelated text that should remain unchanged. We summarize cascade success with Edit-Ripple Adherence (ERA), the fraction of required downstream updates correctly revised, and validate the metric with adversarial probes and stress-test variants. On the hardest cases, where dependent claims use implicit or free-form wording rather than repeating the edited value, five LLM editing systems span ERA 0.148-0.705. Even the strongest misses roughly 30% of required cascade updates. This advantage persists in a mixed evaluation that includes easy cases solvable by deterministic substitution. EditPropBench shows that current LLM editors can repair many implicit consequences of factual edits, but reliable scientific revision still requires cascade-aware checking.
- Abstract(参考訳): 科学的写本のローカルな事実編集は、しばしば非ローカルな修正義務を創出する。
データセットが215から80の文書に変更された場合、「メートルスケール」や「数百項目」といった主張も、編集された番号を繰り返すことはなくとも、時代遅れになる可能性がある。
最近のarXiv cs.CLベンチマークとデータセット論文の監査において、37.2%の論文で事実に依存した質的主張が発見され、この依存パターンがターゲットのジャンルで一般的であることが示唆された。
LLMエディタが依存する原稿クレームを通じて実際の編集を伝播するかどうかを測定するベンチマークであるEditPropBenchを紹介する。
各項目には、ML/NLPスタイルの合成写本、ターゲット編集、直接ターゲットの文レベルラベル、ダウンストリーム更新の必要条件、変更すべきでないテキストを含む制御されたファクトグラフが含まれている。
編集-リップル整合性 (ERA) によるカスケード成功を要約し, 必要な下流更新の分節を正しく修正し, 対向プローブと応力-試験変種を用いて評価した。
最も難しいケースでは、5つのLLM編集システムがERA 0.148-0.705にまたがっている。
最強でさえ、必要なカスケードアップデートの約30%を見逃している。
この利点は、決定論的置換によって解決可能な簡単なケースを含む混合評価で持続する。
EditPropBenchは、現在のLLMエディタが事実編集の暗黙的な結果の多くを修復できることを示しているが、信頼できる科学的修正にはカスケードチェックが必要である。
関連論文リスト
- MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs [76.28901550926021]
寿命の長いモデル編集のための既存の方法は、妥協の一般化、過去の編集の妨害、長い編集シーケンスへのスケールの失敗である。
我々は,学習済みモデルのコア能力を保ちながら,残メモリを介して知識を注入する,新しいスケーラブルなフレームワークMEMOIRを提案する。
MeMOIRは信頼性、一般化、ローカリティのメトリクスにまたがる最先端のパフォーマンスを実現し、最小限の忘れ物で数千のシーケンシャルな編集にスケールする。
論文 参考訳(メタデータ) (2025-06-09T16:16:42Z) - Bridging the Editing Gap in LLMs: FineEdit for Precise and Targeted Text Modifications [4.751608548909266]
FineEditは、コンテキスト対応のテキスト修正のために明示的に訓練された特殊な編集モデルである。
FineEditはシングルターン編集で最先端のモデルより優れており、Llama-3.2-3Bより30%も上回り、Mistral-7B-OpenOrcaのパフォーマンスを40%以上上回っている。
論文 参考訳(メタデータ) (2025-02-19T01:41:44Z) - The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
我々は、広く使われている質問応答(QA)データセットに対応する新しいベンチマークであるQAEditと、タスクに依存しない評価フレームワークであるWILDを紹介する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりもかなり悪い結果が得られた。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - Assessing Human Editing Effort on LLM-Generated Texts via Compression-Based Edit Distance [2.1792283995628465]
Levenshtein、BLEU、ROUGE、TERといった既存の編集距離のメトリクスは、後編集に必要な労力を正確に測定できないことが多い。
本稿では,Lempel-Ziv-77アルゴリズムに基づく新しい圧縮ベース編集距離測定手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T06:29:25Z) - Editing Arbitrary Propositions in LLMs without Subject Labels [88.67755930096966]
GT(Gradient Tracing)と呼ばれるシンプルで高速なローカライゼーション手法を提案する。
GTは、単にバイナリではなく任意の命題を編集できる。
提案手法は, 対象ラベルにアクセスせずに, 対象ラベルを持つ最先端のL&E手法に近い動作を行うことを示す。
論文 参考訳(メタデータ) (2024-01-15T08:08:24Z) - Beyond the Chat: Executable and Verifiable Text-Editing with LLMs [87.84199761550634]
近年,Large Language Models (LLMs) を利用した会話インタフェースが,文書編集時にフィードバックを得る手段として人気になっている。
InkSyncは、編集中のドキュメント内で直接実行可能な編集を推奨する編集インターフェースである。
論文 参考訳(メタデータ) (2023-09-27T00:56:17Z) - SWiPE: A Dataset for Document-Level Simplification of Wikipedia Pages [87.08880616654258]
我々は、SWiPEデータセットを導入し、英語のウィキペディア(EW)記事から単純なウィキペディア(SEW)記事への文書レベルの編集プロセスを再構築する。
我々はウィキペディアの編集者と協力して5000のEW-SEWドキュメントペアを注釈付けし、提案された19のカテゴリで4万以上の編集をラベル付けしています。
SWiPEで訓練されたモデルは、不要な編集を減らしながら、より複雑な編集を生成する。
論文 参考訳(メタデータ) (2023-05-30T16:52:42Z) - Learning Structural Edits via Incremental Tree Transformations [102.64394890816178]
構造化データのインクリメンタルな編集(すなわち「構造的編集」)のための汎用モデルを提案する。
我々の編集者は、反復的にツリー編集(例えば、サブツリーの削除や追加)を生成し、部分的に編集されたデータに適用することを学びます。
提案したエディタを2つのソースコード編集データセットで評価した結果,提案する編集エンコーダでは,従来よりも精度が向上していることがわかった。
論文 参考訳(メタデータ) (2021-01-28T16:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。