Fugu-MT 論文翻訳(概要): Mining Naturally-occurring Corrections and Paraphrases from Wikipedia's Revision History

論文の概要: Mining Naturally-occurring Corrections and Paraphrases from Wikipedia's Revision History

arxiv url: http://arxiv.org/abs/2202.12575v1
Date: Fri, 25 Feb 2022 09:24:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-28 15:01:36.567647
Title: Mining Naturally-occurring Corrections and Paraphrases from Wikipedia's Revision History
Title（参考訳）: ウィキペディアの改訂史から自然に起こる訂正とパラフレーズのマイニング
Authors: Aur\'elien Max and Guillaume Wisniewski
Abstract要約: 我々はウィキペディアのリビジョン履歴から構築された新しいリソースであるWiCoPaCoを紹介する。様々な修正や書き直しを含む、人間の寄稿者による多くの編集を含んでいる。このようなリソースを構築する主な動機について論じ、どのように構築されたかを説明し、フランス語で最初の応用を提示する。
参考スコア（独自算出の注目度）: 5.266784779001397
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Naturally-occurring instances of linguistic phenomena are important both for training and for evaluating automatic processes on text. When available in large quantities, they also prove interesting material for linguistic studies. In this article, we present a new resource built from Wikipedia's revision history, called WiCoPaCo (Wikipedia Correction and Paraphrase Corpus), which contains numerous editings by human contributors, including various corrections and rewritings. We discuss the main motivations for building such a resource, describe how it was built and present initial applications on French.
Abstract（参考訳）: 自然に発生する言語現象の例は、訓練とテキストによる自動処理の評価の両方に重要である。大量に入手可能な場合には、言語研究のための興味深い資料も示される。本稿では、ウィコパコ(wikipedia correction and paraphrase corpus)と呼ばれるwikipediaのリビジョン履歴から構築された新しいリソースについて紹介する。このようなリソースを構築する主な動機について論じ、どのように構築されたかを説明し、初期のアプリケーションをフランス語で紹介する。

関連論文リスト

Building Foundations for Natural Language Processing of Historical Turkish: Resources and Models [0.0]
本稿では,歴史的トルコ語の自然言語処理(NLP)の基礎資源とモデルを紹介する。トルコ語の歴史形式として、最初の名前付きエンティティ認識(NER)データセットHisTRと、最初のUniversal DependenciesツリーバンクであるOTA-BOUNを提示する。我々はまた、翻訳された歴史的トルコ語テキストのクリーンコーパスであるオスマンテキストコーパス(OTC)についても紹介する。
論文参考訳（メタデータ） (2025-01-08T20:29:00Z)
How Good is Your Wikipedia? [13.814955569390207]
本稿では,ウィキペディアのデータ品質を,様々な品質フィルタリング手法を応用して,非英語環境におけるデータ品質を批判的に検証する。データ品質プルーニングは、パフォーマンスを損なうことなく、リソース効率の高いトレーニングに有効な手段であることがわかった。
論文参考訳（メタデータ） (2024-11-08T12:35:58Z)
Language-Agnostic Modeling of Wikipedia Articles for Content Quality Assessment across Languages [0.19698344608599344]
ウィキペディアの記事の品質をモデル化するための新しい計算フレームワークを提案する。本フレームワークは,論文から抽出した言語に依存しない構造的特徴に基づく。既存のウィキペディアの言語バージョンにあるすべての記事の特徴値と品質スコアでデータセットを構築しました。
論文参考訳（メタデータ） (2024-04-15T13:07:31Z)
WikiIns: A High-Quality Dataset for Controlled Text Editing by Natural Language Instruction [56.196512595940334]
WikiInsは高品質な制御されたテキスト編集データセットで、情報性が向上している。高品質なアノテートデータセットを用いて,大規模な銀のトレーニングセットを生成するための自動アプローチを提案する。
論文参考訳（メタデータ） (2023-10-08T04:46:39Z)
WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in Wikipedia [14.325320851640084]
ウィキペディアにおける文質推定のための大規模データセットであるWikiSQEを提案する。それぞれの文は、英語のウィキペディアの改訂履歴全体から抽出される。 WikiSQEには約3.4Mの文と153の品質ラベルがある。
論文参考訳（メタデータ） (2023-05-10T06:45:13Z)
XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages [11.581072296148031]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文参考訳（メタデータ） (2023-03-22T04:52:43Z)
Mapping Process for the Task: Wikidata Statements to Text as Wikipedia Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文参考訳（メタデータ） (2022-10-23T08:34:33Z)
Mining Knowledge for Natural Language Inference from Wikipedia Categories [53.26072815839198]
NLIおよびLEタスクのモデル性能を改善するためのリソースであるWikiNLIを紹介する。ウィキペディアには、自然に注釈付けされたカテゴリー階層から作られた428,899の句が含まれている。我々は、BERTやRoBERTaのような強力なベースラインをWikiNLIで事前訓練し、下流タスクでモデルを転送することで改善できることを示します。
論文参考訳（メタデータ） (2020-10-03T00:45:01Z)
Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文参考訳（メタデータ） (2020-08-21T20:59:34Z)
Multiple Texts as a Limiting Factor in Online Learning: Quantifying (Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文参考訳（メタデータ） (2020-08-05T11:11:55Z)
Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文参考訳（メタデータ） (2020-05-02T04:00:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。