論文の概要: TLDR9+: A Large Scale Resource for Extreme Summarization of Social Media
Posts
- arxiv url: http://arxiv.org/abs/2110.01159v2
- Date: Tue, 5 Oct 2021 16:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 10:49:24.824919
- Title: TLDR9+: A Large Scale Resource for Extreme Summarization of Social Media
Posts
- Title(参考訳): TLDR9+:ソーシャルメディア投稿の極端要約のための大規模リソース
- Authors: Sajad Sotudeh, Hanieh Deilamsalehy, Franck Dernoncourt, Nazli Goharian
- Abstract要約: Redditのディスカッションフォーラムから抽出された900万以上のトレーニングインスタンスを含む、大規模な要約データセットを紹介します。
このデータセットは、極端な要約(すなわち、高い圧縮と抽象化で1文の要約を生成する)を行うために特別に収集され、以前提案されたデータセットの2倍以上の大きさである。
- 参考スコア(独自算出の注目度): 23.227030176825107
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent models in developing summarization systems consist of millions of
parameters and the model performance is highly dependent on the abundance of
training data. While most existing summarization corpora contain data in the
order of thousands to one million, generation of large-scale summarization
datasets in order of couple of millions is yet to be explored. Practically,
more data is better at generalizing the training patterns to unseen data. In
this paper, we introduce TLDR9+ -- a large-scale summarization dataset --
containing over 9 million training instances extracted from Reddit discussion
forum (https://github.com/sajastu/reddit_collector). This dataset is
specifically gathered to perform extreme summarization (i.e., generating
one-sentence summary in high compression and abstraction) and is more than
twice larger than the previously proposed dataset. We go one step further and
with the help of human annotations, we distill a more fine-grained dataset by
sampling High-Quality instances from TLDR9+ and call it TLDRHQ dataset. We
further pinpoint different state-of-the-art summarization models on our
proposed datasets.
- Abstract(参考訳): 要約システムの開発における最近のモデルは、数百万のパラメータで構成されており、モデルの性能は、トレーニングデータの存在量に大きく依存している。
多くの既存の要約コーパスは数千万から100万のデータを格納しているが、大規模な要約データセットの生成は、まだ調査されていない。
実際、より多くのデータがトレーニングパターンを一般化し、見当たらないデータになる。
本稿では,reddit議論フォーラム(https://github.com/sajastu/reddit_collector)から抽出された900万以上のトレーニングインスタンスを含む,大規模な要約データセットであるtldr9+を紹介する。
このデータセットは、特に極端な要約を行うために収集され(例えば、高い圧縮と抽象化で1セント要約を生成する)、以前提案されたデータセットより2倍以上大きい。
さらに一歩進んで、人間のアノテーションの助けを借りて、TLDR9+からHigh-Qualityインスタンスをサンプリングし、TLDRHQデータセットと呼ぶことによって、よりきめ細かいデータセットを抽出します。
さらに,提案するデータセットに異なる最先端の要約モデルを示す。
関連論文リスト
- Zyda: A 1.3T Dataset for Open Language Modeling [10.973515151563427]
Zydaは1.3兆のトークンからなる寛容なライセンス下でのデータセットで、主要なオープンソースのデータセットを単一の高品質なコーパスに統合することによって組み立てられる。
我々の評価によると、ZydaはDolma、FinalWeb、RefinedWebといった他のオープンデータセットと競合するだけでなく、Pythiaスイートの同等モデルの性能を大幅に改善している。
論文 参考訳(メタデータ) (2024-06-04T05:47:17Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文 参考訳(メタデータ) (2021-09-27T17:59:19Z) - How well do you know your summarization datasets? [11.992125069326772]
3つの一般的な要約データセットから600のサンプルを分析した。
続いて、27の最先端の要約モデルと5つの一般的なメトリクスを徹底的に分析する。
論文 参考訳(メタデータ) (2021-06-21T19:44:06Z) - WebRED: Effective Pretraining And Finetuning For Relation Extraction On
The Web [4.702325864333419]
WebREDは、World Wide Webで見つかったテキストから関係を抽出するための強く監視された人間の注釈付きデータセットです。
弱教師付きデータセットの事前学習と、教師付きデータセットの微調整を組み合わせることで、関係抽出性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-18T23:56:12Z) - Liputan6: A Large-scale Indonesian Dataset for Text Summarization [43.375797352517765]
オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。
事前学習した言語モデルを用いて,データセット上のベンチマーク抽出および抽象的要約手法を開発する。
論文 参考訳(メタデータ) (2020-11-02T02:01:12Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。