論文の概要: arXivEdits: Understanding the Human Revision Process in Scientific
Writing
- arxiv url: http://arxiv.org/abs/2210.15067v1
- Date: Wed, 26 Oct 2022 22:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:56:19.484340
- Title: arXivEdits: Understanding the Human Revision Process in Scientific
Writing
- Title(参考訳): arXivEdits: 科学的執筆における人間改正プロセスの理解
- Authors: Chao Jiang and Wei Xu and Samuel Stevens
- Abstract要約: 論文執筆におけるテキストリビジョン研究のための完全な計算フレームワークを提供する。
最初にarXivEditsを紹介した。これは、arXivの751個の全文からなる注釈付きコーパスで、複数のバージョンにまたがってゴールドの文をアライメントする。
データ駆動分析をサポートし、論文の改訂のために研究者が実践する一般的な戦略を明らかにします。
- 参考スコア(独自算出の注目度): 17.63505461444103
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scientific publications are the primary means to communicate research
discoveries, where the writing quality is of crucial importance. However, prior
work studying the human editing process in this domain mainly focused on the
abstract or introduction sections, resulting in an incomplete picture. In this
work, we provide a complete computational framework for studying text revision
in scientific writing. We first introduce arXivEdits, a new annotated corpus of
751 full papers from arXiv with gold sentence alignment across their multiple
versions of revision, as well as fine-grained span-level edits and their
underlying intentions for 1,000 sentence pairs. It supports our data-driven
analysis to unveil the common strategies practiced by researchers for revising
their papers. To scale up the analysis, we also develop automatic methods to
extract revision at document-, sentence-, and word-levels. A neural CRF
sentence alignment model trained on our corpus achieves 93.8 F1, enabling the
reliable matching of sentences between different versions. We formulate the
edit extraction task as a span alignment problem, and our proposed method
extracts more fine-grained and explainable edits, compared to the commonly used
diff algorithm. An intention classifier trained on our dataset achieves 78.9 F1
on the fine-grained intent classification task. Our data and system are
released at tiny.one/arxivedits.
- Abstract(参考訳): 科学出版物は、執筆品質が重要となる研究発見を伝える主要な手段である。
しかし、この領域における人間の編集過程の研究は、主に抽象的な部分や導入部分に焦点を当てており、結果として不完全な絵が描かれる。
本研究は,テキスト修正を科学的に研究するための,完全な計算フレームワークを提供する。
最初にarXivEditsを紹介した。これは、arXivの新しい注釈付き全文コーパスで、複数のバージョンにまたがるゴールドの文アライメントと、細粒度のスパンレベルの編集と1000の文対に対する基本的な意図を提供する。
データ駆動分析をサポートし、研究者が論文を改訂する一般的な戦略を明らかにします。
分析を大規模化するために,文書,文,単語レベルでリビジョンを抽出する自動手法も開発した。
コーパス上で訓練されたニューラルCRF文アライメントモデルは、93.8 F1を達成し、異なるバージョン間の文の信頼性の高いマッチングを可能にする。
本研究では,編集タスクをスパンアライメント問題として定式化し,提案手法は一般的なdiffアルゴリズムと比較して,より微細で説明可能な編集を抽出する。
我々のデータセットで訓練された意図分類器は、きめ細かい意図分類タスクで78.9 F1を達成する。
私たちのデータとシステムは、小さな.one/arxiveditsでリリースされます。
関連論文リスト
- CASIMIR: A Corpus of Scientific Articles enhanced with Multiple Author-Integrated Revisions [7.503795054002406]
本稿では,学術論文の執筆過程の改訂段階について,原文資料を提案する。
この新しいデータセットはCASIMIRと呼ばれ、OpenReviewの15,646の科学論文の改訂版とピアレビューを含んでいる。
論文 参考訳(メタデータ) (2024-03-01T03:07:32Z) - A Novel Dataset for Non-Destructive Inspection of Handwritten Documents [0.0]
法医学的手書き検査は、原稿の著者を適切に定義または仮説化するために手書きの文書を調べることを目的としている。
2つのサブセットからなる新しい挑戦的データセットを提案する。第1は古典的なペンと紙で書かれた21の文書で、後者は後にデジタル化され、タブレットなどの一般的なデバイスで直接取得される。
提案したデータセットの予備的な結果は、第1サブセットで90%の分類精度が得られることを示している。
論文 参考訳(メタデータ) (2024-01-09T09:25:58Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Scientific Paper Extractive Summarization Enhanced by Citation Graphs [50.19266650000948]
我々は、引用グラフを活用して、異なる設定下での科学的論文の抽出要約を改善することに重点を置いている。
予備的な結果は、単純な教師なしフレームワークであっても、引用グラフが有用であることを示している。
そこで我々は,大規模ラベル付きデータが利用可能である場合のタスクにおいて,より正確な結果を得るために,グラフベースのスーパービジョン・サムライゼーション・モデル(GSS)を提案する。
論文 参考訳(メタデータ) (2022-12-08T11:53:12Z) - Cracking Double-Blind Review: Authorship Attribution with Deep Learning [43.483063713471935]
本稿では、匿名の原稿を著者に属性付けるトランスフォーマーベースのニューラルネットワークアーキテクチャを提案する。
我々は、arXivで公開されているすべての研究論文を200万冊以上の原稿に活用する。
本手法は, 論文の最大73%を正解する, 前代未聞の著者帰属精度を実現する。
論文 参考訳(メタデータ) (2022-11-14T15:50:24Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Paperswithtopic: Topic Identification from Paper Title Only [5.025654873456756]
人工知能(AI)分野からタイトルとサブフィールドで組み合わせた論文のデータセットを提示する。
また、論文タイトルのみから、論文のAIサブフィールドを予測する方法についても提示する。
変圧器モデルに対しては、モデルの分類過程をさらに説明するために、勾配に基づく注意可視化も提示する。
論文 参考訳(メタデータ) (2021-10-09T06:32:09Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - Heterogeneous Graph Neural Networks for Extractive Document
Summarization [101.17980994606836]
クロス文関係は、抽出文書要約における重要なステップである。
We present a graph-based neural network for extractive summarization (HeterSumGraph)
抽出文書要約のためのグラフベースニューラルネットワークに異なる種類のノードを導入する。
論文 参考訳(メタデータ) (2020-04-26T14:38:11Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。