論文の概要: HunSum-1: an Abstractive Summarization Dataset for Hungarian
- arxiv url: http://arxiv.org/abs/2302.00455v1
- Date: Wed, 1 Feb 2023 13:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 12:57:50.493088
- Title: HunSum-1: an Abstractive Summarization Dataset for Hungarian
- Title(参考訳): HunSum-1:ハンガリーの抽象的な要約データセット
- Authors: Botond Barta, Dorina Lakatos, Attila Nagy, Mil\'an Konor Nyist, Judit
\'Acs
- Abstract要約: HunSum-1は114万のニュース記事からなるハンガリーの抽象的な要約のためのデータセットである。
データセットは、CmonCrawlを通じて、9つの主要なハンガリーのニュースサイトからデータを収集、クリーニング、分離することで構築される。
このデータセットを用いて、huBERTとmT5に基づいて抽象的な要約モデルを構築する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce HunSum-1: a dataset for Hungarian abstractive summarization,
consisting of 1.14M news articles. The dataset is built by collecting, cleaning
and deduplicating data from 9 major Hungarian news sites through CommonCrawl.
Using this dataset, we build abstractive summarizer models based on huBERT and
mT5. We demonstrate the value of the created dataset by performing a
quantitative and qualitative analysis on the models' results. The HunSum-1
dataset, all models used in our experiments and our code are available open
source.
- Abstract(参考訳): 本稿では,114万のニュース記事からなるハンガリーの抽象要約データセットHunSum-1を紹介する。
データセットは、CmonCrawlを通じて、9つの主要なハンガリーのニュースサイトからデータを収集、クリーニング、分離することで構築される。
このデータセットを用いて、huBERTとmT5に基づいて抽象的な要約モデルを構築する。
モデルの結果を定量的に定性的に分析することにより,生成したデータセットの価値を実証する。
HunSum-1データセット、実験で使用されるすべてのモデルとコードはオープンソースで利用可能です。
関連論文リスト
- L3Cube-MahaSum: A Comprehensive Dataset and BART Models for Abstractive Text Summarization in Marathi [0.4194295877935868]
本稿では,マラタイにおける多種多様なニュース記事の大規模コレクションであるMahaSUMデータセットについて述べる。
データセットは、広範囲のオンラインニュースソースから記事を取り除き、抽象的な要約を手作業で検証することで作成されました。
我々は、MahaSUMデータセットを使用して、Indic言語用に調整されたBARTモデルの変種であるIndicBARTモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-10-11T18:37:37Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - From News to Summaries: Building a Hungarian Corpus for Extractive and Abstractive Summarization [0.19107347888374507]
HunSum-2は、抽象的および抽出的要約モデルのトレーニングに適したオープンソースのハンガリー語コーパスである。
データセットは、徹底的なクリーニングを行うCommon Crawlコーパスのセグメントから組み立てられる。
論文 参考訳(メタデータ) (2024-04-04T16:07:06Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - CLTS+: A New Chinese Long Text Summarization Dataset with Abstractive
Summaries [10.113673549224256]
抽象的な方法に創造性が欠けていることは、特に自動テキスト要約における問題である。
抽象度の高い中国初の長文要約データセットであるCLTS+を提案する。
我々は、CLTS+サマリーで使われる抽出戦略を他のデータセットに対して分析し、新しいデータの抽象性と難易度を定量化する。
論文 参考訳(メタデータ) (2022-06-09T03:53:52Z) - TLDR9+: A Large Scale Resource for Extreme Summarization of Social Media
Posts [23.227030176825107]
Redditのディスカッションフォーラムから抽出された900万以上のトレーニングインスタンスを含む、大規模な要約データセットを紹介します。
このデータセットは、極端な要約(すなわち、高い圧縮と抽象化で1文の要約を生成する)を行うために特別に収集され、以前提案されたデータセットの2倍以上の大きさである。
論文 参考訳(メタデータ) (2021-10-04T02:40:55Z) - XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44
Languages [7.8288425529553916]
XL-SumはBBCから100万の専門的注釈付き記事-要約ペアからなる包括的・多種多様なデータセットである。
データセットは、低から高リソースまでの44の言語をカバーする。
XL-Sumは非常に抽象的で簡潔で高品質で、人間や本質的な評価によって示される。
論文 参考訳(メタデータ) (2021-06-25T18:00:24Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。