論文の概要: HunSum-1: an Abstractive Summarization Dataset for Hungarian
- arxiv url: http://arxiv.org/abs/2302.00455v1
- Date: Wed, 1 Feb 2023 13:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 12:57:50.493088
- Title: HunSum-1: an Abstractive Summarization Dataset for Hungarian
- Title(参考訳): HunSum-1:ハンガリーの抽象的な要約データセット
- Authors: Botond Barta, Dorina Lakatos, Attila Nagy, Mil\'an Konor Nyist, Judit
\'Acs
- Abstract要約: HunSum-1は114万のニュース記事からなるハンガリーの抽象的な要約のためのデータセットである。
データセットは、CmonCrawlを通じて、9つの主要なハンガリーのニュースサイトからデータを収集、クリーニング、分離することで構築される。
このデータセットを用いて、huBERTとmT5に基づいて抽象的な要約モデルを構築する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce HunSum-1: a dataset for Hungarian abstractive summarization,
consisting of 1.14M news articles. The dataset is built by collecting, cleaning
and deduplicating data from 9 major Hungarian news sites through CommonCrawl.
Using this dataset, we build abstractive summarizer models based on huBERT and
mT5. We demonstrate the value of the created dataset by performing a
quantitative and qualitative analysis on the models' results. The HunSum-1
dataset, all models used in our experiments and our code are available open
source.
- Abstract(参考訳): 本稿では,114万のニュース記事からなるハンガリーの抽象要約データセットHunSum-1を紹介する。
データセットは、CmonCrawlを通じて、9つの主要なハンガリーのニュースサイトからデータを収集、クリーニング、分離することで構築される。
このデータセットを用いて、huBERTとmT5に基づいて抽象的な要約モデルを構築する。
モデルの結果を定量的に定性的に分析することにより,生成したデータセットの価値を実証する。
HunSum-1データセット、実験で使用されるすべてのモデルとコードはオープンソースで利用可能です。
関連論文リスト
- LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - CLTS+: A New Chinese Long Text Summarization Dataset with Abstractive
Summaries [10.113673549224256]
抽象的な方法に創造性が欠けていることは、特に自動テキスト要約における問題である。
抽象度の高い中国初の長文要約データセットであるCLTS+を提案する。
我々は、CLTS+サマリーで使われる抽出戦略を他のデータセットに対して分析し、新しいデータの抽象性と難易度を定量化する。
論文 参考訳(メタデータ) (2022-06-09T03:53:52Z) - Improving Persian Relation Extraction Models by Data Augmentation [0.0]
本システムの結果と結果について述べる。
PERLEXをベースデータセットとして使用し、テキスト前処理のステップを適用して拡張する。
次に、拡張PERLEXデータセット上の関係抽出にParsBERTとmultilingual BERTの2つの異なるモデルを用いる。
論文 参考訳(メタデータ) (2022-03-29T08:08:47Z) - TLDR9+: A Large Scale Resource for Extreme Summarization of Social Media
Posts [23.227030176825107]
Redditのディスカッションフォーラムから抽出された900万以上のトレーニングインスタンスを含む、大規模な要約データセットを紹介します。
このデータセットは、極端な要約(すなわち、高い圧縮と抽象化で1文の要約を生成する)を行うために特別に収集され、以前提案されたデータセットの2倍以上の大きさである。
論文 参考訳(メタデータ) (2021-10-04T02:40:55Z) - XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44
Languages [7.8288425529553916]
XL-SumはBBCから100万の専門的注釈付き記事-要約ペアからなる包括的・多種多様なデータセットである。
データセットは、低から高リソースまでの44の言語をカバーする。
XL-Sumは非常に抽象的で簡潔で高品質で、人間や本質的な評価によって示される。
論文 参考訳(メタデータ) (2021-06-25T18:00:24Z) - Liputan6: A Large-scale Indonesian Dataset for Text Summarization [43.375797352517765]
オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。
事前学習した言語モデルを用いて,データセット上のベンチマーク抽出および抽象的要約手法を開発する。
論文 参考訳(メタデータ) (2020-11-02T02:01:12Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z) - Rapidly Bootstrapping a Question Answering Dataset for COVID-19 [88.86456834766288]
我々は、新型コロナウイルスに特化して設計された質問応答データセットの始まりであるCovidQAを紹介する。
これは、そのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。
論文 参考訳(メタデータ) (2020-04-23T17:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。