論文の概要: EditPropBench: Measuring Factual Edit Propagation in Scientific Manuscripts
- arxiv url: http://arxiv.org/abs/2605.02083v1
- Date: Sun, 03 May 2026 22:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.071909
- Title: EditPropBench: Measuring Factual Edit Propagation in Scientific Manuscripts
- Title(参考訳): EditPropBench: 科学写本におけるFactual Edit PropBenchの測定
- Authors: Garvin Kruthof,
- Abstract要約: 科学的写本のローカルな事実編集は、しばしば非ローカルな修正義務を創出する。
LLMエディタが依存する原稿クレームを通じて実際の編集を伝播するかどうかを測定するベンチマークであるEditPropBenchを紹介する。
EditPropBenchは、文レベルの依存性の監視、3つの編集プロトコル、敵メトリックプローブ、ストレステストの変種、編集・リップル・アジェンス(ERA)を中心としたメトリクススイートを備えた、制御された原稿レベルのベンチマークを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Local factual edits in scientific manuscripts often create non-local revision obligations. If a dataset changes from 215 to 80 documents, claims such as 'medium-scale' or 'a few hundred items' may also become stale, even though they do not repeat the edited number. We introduce EditPropBench, a benchmark for measuring whether LLM editors propagate factual edits through dependent manuscript claims. Each item contains an ML/NLP-style synthetic manuscript, a targeted edit, and a controlled fact graph with sentence-level labels for direct targets, required downstream updates, and protected unrelated text. EditPropBench provides a controlled manuscript-level benchmark with sentence-level dependency supervision, three editing protocols, adversarial metric probes, stress-test variants, and a metric suite centered on Edit-Ripple Adherence (ERA). On the hard implicit/free-form stratum, five LLM editing systems span ERA 0.148--0.705; even the strongest misses roughly 30% of required cascade updates. A mixed-stratum stress test shows that LLMs retain a positive advantage over deterministic substitution baselines when easy substitution-solvable cases are included. Finally, an audit of recent arXiv cs.CL benchmark and dataset papers finds fact-dependent qualitative claims in 37.2% of papers. EditPropBench shows that current LLM editors can repair many implicit consequences of factual edits, but reliable scientific revision still requires cascade-aware checking.
- Abstract(参考訳): 科学的写本のローカルな事実編集は、しばしば非ローカルな修正義務を創出する。
データセットが215から80の文書に変更された場合、「メートルスケール」や「数百項目」といった主張も、編集番号を繰り返すことはなくとも、時代遅れになる可能性がある。
LLMエディタが依存する原稿クレームを通じて実際の編集を伝播するかどうかを測定するベンチマークであるEditPropBenchを紹介する。
各項目には、ML/NLPスタイルの合成写本、ターゲット編集、直接ターゲットの文レベルラベル、下流更新、保護されていないテキストを含む制御されたファクトグラフが含まれている。
EditPropBenchは、テキストレベルの依存性の監視、3つの編集プロトコル、敵メトリックプローブ、ストレステストの変種、編集・リップル・アジェンス(ERA)を中心としたメトリクススイートを備えた、制御された原稿レベルのベンチマークを提供する。
暗黙的/無形層では、5つのLLM編集システムがERA 0.148--0.705にまたがっている。
混合層応力試験により, LLMは容易に置換可能なケースを含む場合, 決定論的置換基線に対して正の優位性を有することが示された。
最後に、最近のarXiv cs.CLベンチマークとデータセット論文の監査では、37.2%の論文で事実に依存した質的主張が見つかった。
EditPropBenchは、現在のLLMエディタが事実編集の暗黙的な結果の多くを修復できることを示しているが、信頼できる科学的修正にはカスケードチェックが必要である。
関連論文リスト
- MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs [76.28901550926021]
寿命の長いモデル編集のための既存の方法は、妥協の一般化、過去の編集の妨害、長い編集シーケンスへのスケールの失敗である。
我々は,学習済みモデルのコア能力を保ちながら,残メモリを介して知識を注入する,新しいスケーラブルなフレームワークMEMOIRを提案する。
MeMOIRは信頼性、一般化、ローカリティのメトリクスにまたがる最先端のパフォーマンスを実現し、最小限の忘れ物で数千のシーケンシャルな編集にスケールする。
論文 参考訳(メタデータ) (2025-06-09T16:16:42Z) - Bridging the Editing Gap in LLMs: FineEdit for Precise and Targeted Text Modifications [4.751608548909266]
FineEditは、コンテキスト対応のテキスト修正のために明示的に訓練された特殊な編集モデルである。
FineEditはシングルターン編集で最先端のモデルより優れており、Llama-3.2-3Bより30%も上回り、Mistral-7B-OpenOrcaのパフォーマンスを40%以上上回っている。
論文 参考訳(メタデータ) (2025-02-19T01:41:44Z) - The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
我々は、広く使われている質問応答(QA)データセットに対応する新しいベンチマークであるQAEditと、タスクに依存しない評価フレームワークであるWILDを紹介する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりもかなり悪い結果が得られた。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - Assessing Human Editing Effort on LLM-Generated Texts via Compression-Based Edit Distance [2.1792283995628465]
Levenshtein、BLEU、ROUGE、TERといった既存の編集距離のメトリクスは、後編集に必要な労力を正確に測定できないことが多い。
本稿では,Lempel-Ziv-77アルゴリズムに基づく新しい圧縮ベース編集距離測定手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T06:29:25Z) - Editing Arbitrary Propositions in LLMs without Subject Labels [88.67755930096966]
GT(Gradient Tracing)と呼ばれるシンプルで高速なローカライゼーション手法を提案する。
GTは、単にバイナリではなく任意の命題を編集できる。
提案手法は, 対象ラベルにアクセスせずに, 対象ラベルを持つ最先端のL&E手法に近い動作を行うことを示す。
論文 参考訳(メタデータ) (2024-01-15T08:08:24Z) - Beyond the Chat: Executable and Verifiable Text-Editing with LLMs [87.84199761550634]
近年,Large Language Models (LLMs) を利用した会話インタフェースが,文書編集時にフィードバックを得る手段として人気になっている。
InkSyncは、編集中のドキュメント内で直接実行可能な編集を推奨する編集インターフェースである。
論文 参考訳(メタデータ) (2023-09-27T00:56:17Z) - SWiPE: A Dataset for Document-Level Simplification of Wikipedia Pages [87.08880616654258]
我々は、SWiPEデータセットを導入し、英語のウィキペディア(EW)記事から単純なウィキペディア(SEW)記事への文書レベルの編集プロセスを再構築する。
我々はウィキペディアの編集者と協力して5000のEW-SEWドキュメントペアを注釈付けし、提案された19のカテゴリで4万以上の編集をラベル付けしています。
SWiPEで訓練されたモデルは、不要な編集を減らしながら、より複雑な編集を生成する。
論文 参考訳(メタデータ) (2023-05-30T16:52:42Z) - Learning Structural Edits via Incremental Tree Transformations [102.64394890816178]
構造化データのインクリメンタルな編集(すなわち「構造的編集」)のための汎用モデルを提案する。
我々の編集者は、反復的にツリー編集(例えば、サブツリーの削除や追加)を生成し、部分的に編集されたデータに適用することを学びます。
提案したエディタを2つのソースコード編集データセットで評価した結果,提案する編集エンコーダでは,従来よりも精度が向上していることがわかった。
論文 参考訳(メタデータ) (2021-01-28T16:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。