論文の概要: Towards Automated Document Revision: Grammatical Error Correction,
Fluency Edits, and Beyond
- arxiv url: http://arxiv.org/abs/2205.11484v1
- Date: Mon, 23 May 2022 17:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 17:02:02.319408
- Title: Towards Automated Document Revision: Grammatical Error Correction,
Fluency Edits, and Beyond
- Title(参考訳): 自動文書修正に向けて : 文法的誤り訂正,フラレンシー編集など
- Authors: Masato Mita, Keisuke Sakaguchi, Masato Hagiwara, Tomoya Mizumoto, Jun
Suzuki, Kentaro Inui
- Abstract要約: ACLアンソロジーから採取した学術論文をプロの編集者が改訂する文書改訂コーパスTETRAを導入する。
TETRAの独特性を既存の文書修正コーパスと比較し、微妙な違いであっても、修正後の文書の品質を識別できることを実証する。
- 参考スコア(独自算出の注目度): 46.130399041820716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language processing technology has rapidly improved automated
grammatical error correction tasks, and the community begins to explore
document-level revision as one of the next challenges. To go beyond
sentence-level automated grammatical error correction to NLP-based
document-level revision assistant, there are two major obstacles: (1) there are
few public corpora with document-level revisions being annotated by
professional editors, and (2) it is not feasible to elicit all possible
references and evaluate the quality of revision with such references because
there are infinite possibilities of revision. This paper tackles these
challenges. First, we introduce a new document-revision corpus, TETRA, where
professional editors revised academic papers sampled from the ACL anthology
which contain few trivial grammatical errors that enable us to focus more on
document- and paragraph-level edits such as coherence and consistency. Second,
we explore reference-less and interpretable methods for meta-evaluation that
can detect quality improvements by document revision. We show the uniqueness of
TETRA compared with existing document revision corpora and demonstrate that a
fine-tuned pre-trained language model can discriminate the quality of documents
after revision even when the difference is subtle. This promising result will
encourage the community to further explore automated document revision models
and metrics in future.
- Abstract(参考訳): 自然言語処理技術は文法的誤り訂正タスクを急速に改善し、コミュニティは次の課題の一つとして文書レベルの修正を探求し始めた。
文章レベルの自動文法的誤り訂正をNLPベースの文書レベルのリビジョンアシスタントに適用するには、(1)文書レベルのリビジョンがプロの編集者によって注釈付けされている公開コーパスがほとんどなく、(2)すべての参照を抽出し、リビジョンの無限の可能性があるため、リビジョンの質を評価することは不可能である。
本稿ではこれらの課題に取り組む。
まず,aclアンソロジーからサンプル化された学術論文を編集し,コヒーレンスや一貫性などの文書や段落レベルの編集に重点を置くことを可能にする,新たな文書リビジョンコーパスであるtetraを紹介する。
第2に,文書修正による品質改善の検出が可能なメタ評価のための参照レスかつ解釈可能な手法について検討する。
既存の文書修正コーパスと比較して,tetraの独自性を示すとともに,微妙な差異があっても,微調整された事前学習言語モデルによって文書の質を判別できることを実証する。
この有望な結果により、コミュニティは将来、自動ドキュメントのリビジョンモデルとメトリクスをさらに探究することができるだろう。
関連論文リスト
- Re3: A Holistic Framework and Dataset for Modeling Collaborative Document Revision [62.12545440385489]
共同文書リビジョンを共同で分析するためのフレームワークであるRe3を紹介する。
本稿では,Re3-Sciについて紹介する。Re3-Sciは,その行動と意図に応じて手動でラベル付けされた科学的論文の大規模なコーパスである。
我々は,新しいデータを用いて,学術領域における共同文書改訂に関する実証的研究を行った。
論文 参考訳(メタデータ) (2024-05-31T21:19:09Z) - CASIMIR: A Corpus of Scientific Articles enhanced with Multiple Author-Integrated Revisions [7.503795054002406]
本稿では,学術論文の執筆過程の改訂段階について,原文資料を提案する。
この新しいデータセットはCASIMIRと呼ばれ、OpenReviewの15,646の科学論文の改訂版とピアレビューを含んでいる。
論文 参考訳(メタデータ) (2024-03-01T03:07:32Z) - Beyond the Chat: Executable and Verifiable Text-Editing with LLMs [87.84199761550634]
近年,Large Language Models (LLMs) を利用した会話インタフェースが,文書編集時にフィードバックを得る手段として人気になっている。
InkSyncは、編集中のドキュメント内で直接実行可能な編集を推奨する編集インターフェースである。
論文 参考訳(メタデータ) (2023-09-27T00:56:17Z) - Improving Iterative Text Revision by Learning Where to Edit from Other
Revision Tasks [11.495407637511878]
反復的テキストリビジョンは文法的誤りの修正、読みやすさの向上や文脈的適切性の向上、文書全体の文構造の再編成によってテキスト品質を改善する。
近年の研究では、人間によるテキストからの反復的な修正プロセスにおいて、様々な種類の編集の理解と分類に焦点が当てられている。
我々は,編集可能なスパンを対応する編集意図で明示的に検出することにより,有用な編集を反復的に生成するエンド・ツー・エンドテキスト・リビジョン・システムの構築を目指している。
論文 参考訳(メタデータ) (2022-12-02T18:10:43Z) - EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文 参考訳(メタデータ) (2022-09-27T12:26:05Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Read, Revise, Repeat: A System Demonstration for Human-in-the-loop
Iterative Text Revision [11.495407637511878]
本稿では,リピート・リバイス・リピート・リピート・リピート (R3) によるヒューマン・イン・ザ・ループ・イテレーティブ・テキスト・リフレクションシステムを提案する。
R3は、モデル生成のリビジョンとユーザからのフィードバックを読み、文書を改訂し、人間と機械の相互作用を繰り返すことで、人間の最小限の努力で高品質なテキストリビジョンを実現することを目的としている。
論文 参考訳(メタデータ) (2022-04-07T18:33:10Z) - Understanding Iterative Revision from Human-Written Text [10.714872525208385]
IteraTeRは、反復的に修正されたテキストの最初の大規模、複数ドメイン、編集意図の注釈付きコーパスである。
テキストのリビジョンプロセスをよりよく理解し、編集意図と執筆品質の間に重要なつながりを築き上げます。
論文 参考訳(メタデータ) (2022-03-08T01:47:42Z) - Automatic Document Sketching: Generating Drafts from Analogous Texts [44.626645471195495]
著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。
これらのドラフトは、コンテンツのばらつきながら、形式的に重複するドキュメントのセット - 潜在的に再利用可能なテキストの大きなセグメントを共有する - から作成されます。
本研究は,変圧器を用いた専門家の混合と強化学習の併用を含む,弱教師付き手法の適用について検討する。
論文 参考訳(メタデータ) (2021-06-14T06:46:06Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。