論文の概要: WikiIns: A High-Quality Dataset for Controlled Text Editing by Natural
Language Instruction
- arxiv url: http://arxiv.org/abs/2310.05009v1
- Date: Sun, 8 Oct 2023 04:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:35:32.367483
- Title: WikiIns: A High-Quality Dataset for Controlled Text Editing by Natural
Language Instruction
- Title(参考訳): WikiIns:自然言語によるテキスト編集のための高品質データセット
- Authors: Xiang Chen, Zheng Li, Xiaojun Wan
- Abstract要約: WikiInsは高品質な制御されたテキスト編集データセットで、情報性が向上している。
高品質なアノテートデータセットを用いて,大規模な銀のトレーニングセットを生成するための自動アプローチを提案する。
- 参考スコア(独自算出の注目度): 56.196512595940334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text editing, i.e., the process of modifying or manipulating text, is a
crucial step in human writing process. In this paper, we study the problem of
controlled text editing by natural language instruction. According to a given
instruction that conveys the edit intention and necessary information, an
original draft text is required to be revised into a target text. Existing
automatically constructed datasets for this task are limited because they do
not have informative natural language instruction. The informativeness requires
the information contained in the instruction to be enough to produce the
revised text. To address this limitation, we build and release WikiIns, a
high-quality controlled text editing dataset with improved informativeness. We
first preprocess the Wikipedia edit history database to extract the raw data
(WikiIns-Raw). Then we crowdsource high-quality validation and test sets, as
well as a small-scale training set (WikiIns-Gold). With the high-quality
annotated dataset, we further propose automatic approaches to generate a
large-scale ``silver'' training set (WikiIns-Silver). Finally, we provide some
insightful analysis on our WikiIns dataset, including the evaluation results
and the edit intention analysis. Our analysis and the experiment results on
WikiIns may assist the ongoing research on text editing. The dataset, source
code and annotation guideline are available at
https://github.com/CasparSwift/WikiIns.
- Abstract(参考訳): テキスト編集、すなわちテキストの修正や操作のプロセスは、人間の文章作成プロセスにおいて重要なステップである。
本稿では,自然言語によるテキスト編集の制御の問題について検討する。
編集意図と必要な情報を伝達する所定の指示に従って、原文を目標文に改訂する必要がある。
このタスクのために構築されたデータセットは、情報的自然言語命令を持たないため、制限されている。
インフォメーション性は、改訂されたテキストを作成するのに十分な命令に含まれる情報を必要とする。
この制限に対処するため、情報性を改善した高品質なテキスト編集データセットWikiInsを構築し、リリースする。
最初にWikipedia編集履歴データベースを前処理して生データ(WikiIns-Raw)を抽出する。
次に、高品質な検証とテストセットと、小規模のトレーニングセット(WikiIns-Gold)をクラウドソースします。
高品質なアノテートデータセットを用いて,大規模 ``silver'' トレーニングセット (WikiIns-Silver) を生成するための自動アプローチを提案する。
最後に、WikiInsデータセットについて、評価結果と編集意図分析を含む洞察に富んだ分析を行う。
WikiInsの分析と実験結果は,現在進行中のテキスト編集研究を支援する可能性がある。
データセット、ソースコード、アノテーションガイドラインはhttps://github.com/casparswift/wikiinsで入手できる。
関連論文リスト
- StruEdit: Structured Outputs Enable the Fast and Accurate Knowledge Editing for Large Language Models [41.45831411548188]
StruEditは、他の知識編集方法と比較して、レイテンシの低い最高の精度を提供する。
結果,StruEditは,他の知識編集手法と比較して,低レイテンシで常に高い精度を提供することがわかった。
論文 参考訳(メタデータ) (2024-09-16T09:48:56Z) - XATU: A Fine-grained Instruction-based Benchmark for Explainable Text Updates [7.660511135287692]
本稿では,微粒な命令ベースの説明可能なテキスト編集用に設計された最初のベンチマークであるXATUを紹介する。
XATUは、語彙、構文、意味論、知識集約的な編集といった難易度の細かいテキスト編集タスクについて検討している。
各種編集タスクにおける命令チューニングの有効性と基礎となるアーキテクチャの影響を実証する。
論文 参考訳(メタデータ) (2023-09-20T04:58:59Z) - EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文 参考訳(メタデータ) (2022-09-27T12:26:05Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Controlling Text Edition by Changing Answers of Specific Questions [44.12998895830244]
制御可能なテキストエディションの新しいタスクを紹介します。
我々は、長いテキスト、質問、ターゲットの回答を入力として取り、出力は最小限の変更されたテキストである。
このタスクは、いくつかの条件、結果、または法的文書のプロパティを変更するなど、多くの状況において非常に重要である。
論文 参考訳(メタデータ) (2021-05-23T20:44:15Z) - Learning Structural Edits via Incremental Tree Transformations [102.64394890816178]
構造化データのインクリメンタルな編集(すなわち「構造的編集」)のための汎用モデルを提案する。
我々の編集者は、反復的にツリー編集(例えば、サブツリーの削除や追加)を生成し、部分的に編集されたデータに適用することを学びます。
提案したエディタを2つのソースコード編集データセットで評価した結果,提案する編集エンコーダでは,従来よりも精度が向上していることがわかった。
論文 参考訳(メタデータ) (2021-01-28T16:11:32Z) - Text Editing by Command [82.50904226312451]
ニューラルテキスト生成における一般的なパラダイムは、単一のステップでテキストを生成するワンショット生成である。
この制限をユーザが既存のテキストを編集するコマンドを発行することでシステムと対話するインタラクティブテキスト生成設定で解決する。
このデータセットに基づいてトレーニングされたトランスフォーマーベースモデルであるInteractive Editorは,ベースラインを上回り,自動評価と人的評価の両方において肯定的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-24T08:00:30Z) - Fact-based Text Editing [11.115292572080131]
textscFactEditorは、バッファ、ストリーム、メモリを使用して与えられた事実を参照することで、ドラフトテキストを編集する。
textscFactEditorは、エンコーダ-デコーダアプローチよりも高速に推論を実行する。
論文 参考訳(メタデータ) (2020-07-02T06:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。