論文の概要: EarlySciRev: A Dataset of Early-Stage Scientific Revisions Extracted from LaTeX Writing Traces
- arxiv url: http://arxiv.org/abs/2603.28515v1
- Date: Mon, 30 Mar 2026 14:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.450784
- Title: EarlySciRev: A Dataset of Early-Stage Scientific Revisions Extracted from LaTeX Writing Traces
- Title(参考訳): EarlySciRev: LaTeXの筆跡から抽出した早期科学的修正のデータセット
- Authors: Léane Jourdan, Julien Aubert-Béduchaud, Yannis Chupin, Marah Baccari, Florian Boudin,
- Abstract要約: 我々は、arXivソースファイルから自動的に抽出されるアーリーステージの科学的テキストリビジョンのデータセットであるEarlySciRevを紹介する。
私たちのキーとなる観察は、コメントアウトされたテキストは、しばしば、著者自身によって書かれた破棄された、または代替的な定式化を保存することである。
私たちのパイプラインは、578万の検証済みリビジョンペアを生成します。
- 参考スコア(独自算出の注目度): 5.062670468960367
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scientific writing is an iterative process that generates rich revision traces, yet publicly available resources typically expose only final or near-final versions of papers. This limits empirical study of revision behaviour and evaluation of large language models (LLMs) for scientific writing. We introduce EarlySciRev, a dataset of early-stage scientific text revisions automatically extracted from arXiv LaTeX source files. Our key observation is that commented-out text in LaTeX often preserves discarded or alternative formulations written by the authors themselves. By aligning commented segments with nearby final text, we extract paragraph-level candidate revision pairs and apply LLM-based filtering to retain genuine revisions. Starting from 1.28M candidate pairs, our pipeline yields 578k validated revision pairs, grounded in authentic early drafting traces. We additionally provide a human-annotated benchmark for revision detection. EarlySciRev complements existing resources focused on late-stage revisions or synthetic rewrites and supports research on scientific writing dynamics, revision modelling, and LLM-assisted editing.
- Abstract(参考訳): 科学的執筆は、リッチリビジョントレースを生成する反復的なプロセスであるが、一般に公開されているリソースは通常、最終版または準最終版のみを公開する。
これは、科学的執筆のための大規模な言語モデル(LLM)の改訂行動と評価に関する実証的研究を制限する。
我々は、arXiv LaTeXソースファイルから自動的に抽出されたアーリーステージの科学的テキストリビジョンのデータセットであるEarlySciRevを紹介する。
私たちのキーとなる観察は、LaTeXのコメントアウトテキストは、しばしば、著者自身によって書かれた廃棄または代替の定式化を保存することである。
コメント付きセグメントを近くの最終文と整合させることで,段落レベルの候補修正ペアを抽出し,LLMに基づくフィルタリングを適用して真の修正を維持できる。
1.28万の候補ペアから始めて、パイプラインは578万の検証済みリビジョンペアを生成します。
また,リビジョン検出のための人手によるベンチマークも提供する。
EarlySciRevは、後期のリビジョンや合成リライトに焦点を当てた既存のリソースを補完し、科学書記力学、リビジョンモデリング、LLM支援編集の研究をサポートする。
関連論文リスト
- LiRA: A Multi-Agent Framework for Reliable and Readable Literature Review Generation [66.09346158850308]
文献レビュープロセスをエミュレートする多エージェント協調ワークフローLiRA(Literature Review Agents)を提案する。
LiRAは、コンテンツアウトライン、サブセクションの執筆、編集、レビュー、コヒーシブで包括的なレビュー記事の作成に特殊エージェントを使用している。
実世界のシナリオにおいて文書検索を用いてLiRAを評価し,そのロバスト性を評価する。
論文 参考訳(メタデータ) (2025-10-01T12:14:28Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。
公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文 参考訳(メタデータ) (2024-05-23T11:00:19Z) - CASIMIR: A Corpus of Scientific Articles enhanced with Multiple Author-Integrated Revisions [7.503795054002406]
本稿では,学術論文の執筆過程の改訂段階について,原文資料を提案する。
この新しいデータセットはCASIMIRと呼ばれ、OpenReviewの15,646の科学論文の改訂版とピアレビューを含んでいる。
論文 参考訳(メタデータ) (2024-03-01T03:07:32Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - arXivEdits: Understanding the Human Revision Process in Scientific
Writing [17.63505461444103]
論文執筆におけるテキストリビジョン研究のための完全な計算フレームワークを提供する。
最初にarXivEditsを紹介した。これは、arXivの751個の全文からなる注釈付きコーパスで、複数のバージョンにまたがってゴールドの文をアライメントする。
データ駆動分析をサポートし、論文の改訂のために研究者が実践する一般的な戦略を明らかにします。
論文 参考訳(メタデータ) (2022-10-26T22:50:24Z) - Towards Automated Document Revision: Grammatical Error Correction,
Fluency Edits, and Beyond [46.130399041820716]
ACLアンソロジーから採取した学術論文をプロの編集者が改訂する文書改訂コーパスTETRAを導入する。
TETRAの独特性を既存の文書修正コーパスと比較し、微妙な違いであっても、修正後の文書の品質を識別できることを実証する。
論文 参考訳(メタデータ) (2022-05-23T17:37:20Z) - Read, Revise, Repeat: A System Demonstration for Human-in-the-loop
Iterative Text Revision [11.495407637511878]
本稿では,リピート・リバイス・リピート・リピート・リピート (R3) によるヒューマン・イン・ザ・ループ・イテレーティブ・テキスト・リフレクションシステムを提案する。
R3は、モデル生成のリビジョンとユーザからのフィードバックを読み、文書を改訂し、人間と機械の相互作用を繰り返すことで、人間の最小限の努力で高品質なテキストリビジョンを実現することを目的としている。
論文 参考訳(メタデータ) (2022-04-07T18:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。