論文の概要: Edisum: Summarizing and Explaining Wikipedia Edits at Scale
- arxiv url: http://arxiv.org/abs/2404.03428v1
- Date: Thu, 4 Apr 2024 13:15:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 14:41:45.497004
- Title: Edisum: Summarizing and Explaining Wikipedia Edits at Scale
- Title(参考訳): Edisum: Wikipedia編集の要約と解説
- Authors: Marija Šakota, Isaac Johnson, Guosheng Feng, Robert West,
- Abstract要約: 優れた編集要約を生成するために訓練された言語モデルにより生成された編集要約を推薦するモデルを提案する。
本稿では,Web上で最大かつ最も目に見えるプロジェクトの1つを維持する上で,言語モデリング技術が人間にどのように役立つかを紹介する。
- 参考スコア(独自算出の注目度): 9.968020416365757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An edit summary is a succinct comment written by a Wikipedia editor explaining the nature of, and reasons for, an edit to a Wikipedia page. Edit summaries are crucial for maintaining the encyclopedia: they are the first thing seen by content moderators and help them decide whether to accept or reject an edit. Additionally, edit summaries constitute a valuable data source for researchers. Unfortunately, as we show, for many edits, summaries are either missing or incomplete. To overcome this problem and help editors write useful edit summaries, we propose a model for recommending edit summaries generated by a language model trained to produce good edit summaries given the representation of an edit diff. This is a challenging task for multiple reasons, including mixed-quality training data, the need to understand not only what was changed in the article but also why it was changed, and efficiency requirements imposed by the scale of Wikipedia. We address these challenges by curating a mix of human and synthetically generated training data and fine-tuning a generative language model sufficiently small to be used on Wikipedia at scale. Our model performs on par with human editors. Commercial large language models are able to solve this task better than human editors, but would be too expensive to run on Wikipedia at scale. More broadly, this paper showcases how language modeling technology can be used to support humans in maintaining one of the largest and most visible projects on the Web.
- Abstract(参考訳): 編集要約はウィキペディアの編集者が書いた簡潔なコメントで、ウィキペディアのページへの編集の性質と理由を説明する。
編集サマリーは、百科事典を維持するために不可欠である。コンテンツモデレーターが最初に見るもので、編集を受理するか拒否するかを決めるのに役立つ。
さらに、要約編集は研究者にとって貴重なデータソースとなっている。
残念なことに、多くの編集では要約が欠落しているか不完全である。
この問題を克服し、編集者が有用な編集要約を書くのを助けるために、編集差分を表現して優れた編集要約を生成するために訓練された言語モデルによって生成された編集要約を推薦するモデルを提案する。
これは、混成品質のトレーニングデータ、記事の中で何が変更されたのかだけでなく、なぜ変更されたのかを理解する必要があること、ウィキペディアの規模によって課される効率要件など、さまざまな理由から難しいタスクである。
これらの課題に対処するために、人間と合成されたトレーニングデータの混在をキュレートし、ウィキペディアで大規模に使用するのに十分小さい生成言語モデルを微調整する。
我々のモデルは人間の編集者と同等に機能する。
商用の大規模言語モデルは、このタスクを人間のエディタよりもうまく解決することができるが、Wikipediaで大規模に実行するには高すぎるだろう。
より広範に、Web上で最大かつ最も目に見えるプロジェクトの1つを維持する上で、言語モデリング技術がどのように人間をサポートするかを示す。
関連論文リスト
- DUnE: Dataset for Unified Editing [3.7346004746366384]
自然言語文を編集するDUnE-an編集ベンチマークを導入する。
検索強化言語モデリングは、特殊な編集技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-27T18:56:14Z) - WikiIns: A High-Quality Dataset for Controlled Text Editing by Natural
Language Instruction [56.196512595940334]
WikiInsは高品質な制御されたテキスト編集データセットで、情報性が向上している。
高品質なアノテートデータセットを用いて,大規模な銀のトレーニングセットを生成するための自動アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-08T04:46:39Z) - SWiPE: A Dataset for Document-Level Simplification of Wikipedia Pages [87.08880616654258]
我々は、SWiPEデータセットを導入し、英語のウィキペディア(EW)記事から単純なウィキペディア(SEW)記事への文書レベルの編集プロセスを再構築する。
我々はウィキペディアの編集者と協力して5000のEW-SEWドキュメントペアを注釈付けし、提案された19のカテゴリで4万以上の編集をラベル付けしています。
SWiPEで訓練されたモデルは、不要な編集を減らしながら、より複雑な編集を生成する。
論文 参考訳(メタデータ) (2023-05-30T16:52:42Z) - WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in
Wikipedia [14.325320851640084]
ウィキペディアにおける文質推定のための大規模データセットであるWikiSQEを提案する。
それぞれの文は、英語のウィキペディアの改訂履歴全体から抽出される。
WikiSQEには約3.4Mの文と153の品質ラベルがある。
論文 参考訳(メタデータ) (2023-05-10T06:45:13Z) - Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models [68.03946716358335]
既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識を操作する場所がわかると期待しているからです。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
論文 参考訳(メタデータ) (2023-01-10T21:26:08Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Learning Structural Edits via Incremental Tree Transformations [102.64394890816178]
構造化データのインクリメンタルな編集(すなわち「構造的編集」)のための汎用モデルを提案する。
我々の編集者は、反復的にツリー編集(例えば、サブツリーの削除や追加)を生成し、部分的に編集されたデータに適用することを学びます。
提案したエディタを2つのソースコード編集データセットで評価した結果,提案する編集エンコーダでは,従来よりも精度が向上していることがわかった。
論文 参考訳(メタデータ) (2021-01-28T16:11:32Z) - Scalable Recommendation of Wikipedia Articles to Editors Using
Representation Learning [1.8810916321241067]
我々は、グラフ畳み込みネットワークとDoc2Vecの上にスケーラブルなシステムを開発し、ウィキペディアの記事の表現方法を学び、編集者にパーソナライズされたレコメンデーションを提供する。
筆者らは,過去の編集結果に基づいて,最新の編集結果を予測し,編集者の履歴に基づいてモデルを検証した。
この論文で使用されるデータはすべて公開されており、ウィキペディアの記事のグラフ埋め込みなどが含まれています。
論文 参考訳(メタデータ) (2020-09-24T15:56:02Z) - A Structural Model for Contextual Code Changes [20.185486717922615]
部分的に編集されたコードスニペットが与えられた場合、私たちのゴールは、スニペットの残りの部分に対する編集の完了を予測することです。
提案モデルでは,最先端のシーケンシャルモデルよりも28%,編集コードの生成を学習する構文モデルよりも2倍高い精度を実現している。
論文 参考訳(メタデータ) (2020-05-27T07:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。