論文の概要: Learning to Summarize Passages: Mining Passage-Summary Pairs from
Wikipedia Revision Histories
- arxiv url: http://arxiv.org/abs/2004.02592v1
- Date: Mon, 6 Apr 2020 12:11:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 06:36:13.338478
- Title: Learning to Summarize Passages: Mining Passage-Summary Pairs from
Wikipedia Revision Histories
- Title(参考訳): パスを要約する学習:ウィキペディアの改訂史からパスメージ・サマリ・ペアをマイニング
- Authors: Qingyu Zhou, Furu Wei, Ming Zhou
- Abstract要約: ウィキペディアページのリビジョン履歴をマイニングすることで,パス・トゥ・サマリーデータセットを自動構築する手法を提案する。
特に、本手法では、ページに追加される本体の通路と導入文を同時にマイニングする。
構築されたデータセットは、100万以上のパス・サマー・ペアを含む。
- 参考スコア(独自算出の注目度): 110.54963847339775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a method for automatically constructing a
passage-to-summary dataset by mining the Wikipedia page revision histories. In
particular, the method mines the main body passages and the introduction
sentences which are added to the pages simultaneously. The constructed dataset
contains more than one hundred thousand passage-summary pairs. The quality
analysis shows that it is promising that the dataset can be used as a training
and validation set for passage summarization. We validate and analyze the
performance of various summarization systems on the proposed dataset. The
dataset will be available online at https://res.qyzhou.me.
- Abstract(参考訳): 本稿では,wikipediaのページリビジョン履歴をマイニングして要約データを自動的に構築する手法を提案する。
特に、本手法では、ページに追加される本体の通路と導入文を同時にマイニングする。
構築されたデータセットは、1万以上のパスサマリーペアを含む。
品質分析は、データセットがパス要約のトレーニングと検証セットとして使用できることを約束していることを示している。
提案するデータセット上での各種要約システムの性能を検証・解析する。
データセットはhttps://res.qyzhou.me.com/で入手できる。
関連論文リスト
- Distantly Supervised Morpho-Syntactic Model for Relation Extraction [0.27195102129094995]
テキストから制約のない関係の集合を抽出し分類する手法を提案する。
ウィキデータとウィキペディア上に構築された6つのデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-18T14:17:40Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Podcast Summary Assessment: A Resource for Evaluating Summary Assessment
Methods [42.08097583183816]
本稿では,新たなデータセット,ポッドキャスト要約評価コーパスについて述べる。
このデータセットには、2つのユニークな側面がある: (i)ロングインプット、音声ポッドキャストベース、文書; (ii)ポッドキャストコーパスにおける不適切な参照要約を検出する機会。
論文 参考訳(メタデータ) (2022-08-28T18:24:41Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - Robust Text Line Detection in Historical Documents: Learning and
Evaluation Methods [1.9938405188113029]
本稿では,3つの最先端システムDoc-UFCN,dhSegment,ARU-Netを用いて実験を行った。
多様な未確認ページを正確にセグメント化できる,さまざまな履歴文書データセットに基づいてトレーニングされた汎用モデルを構築することが可能であることを示す。
論文 参考訳(メタデータ) (2022-03-23T11:56:25Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - Exploring Content Selection in Summarization of Novel Chapters [19.11830806780343]
オンライン学習ガイドから要約/チャプタペアを用いて新しい章の要約を生成する新しい要約タスクを提案する。
これはニュース要約作業よりも難しい作業であり、章の長さだけでなく、要約に見られる極端なパラフレーズや一般化も考慮されている。
我々は抽出要約に焦点をあて、抽出要約のゴールド標準セットを作成する必要がある。
論文 参考訳(メタデータ) (2020-05-04T20:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。