論文の概要: Benchmarking Abstractive Summarisation: A Dataset of Human-authored Summaries of Norwegian News Articles
- arxiv url: http://arxiv.org/abs/2501.07718v1
- Date: Mon, 13 Jan 2025 22:08:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:25:40.519333
- Title: Benchmarking Abstractive Summarisation: A Dataset of Human-authored Summaries of Norwegian News Articles
- Title(参考訳): 要約要約のベンチマーク:ノルウェーニュース記事の人間による要約のデータセット
- Authors: Samia Touileb, Vladislav Mikhailov, Marie Kroka, Lilja Øvrelid, Erik Velldal,
- Abstract要約: ノルウェーのニュース記事の高品質な人間によるサマリーのデータセットを紹介する。
このデータセットは、生成言語モデルの抽象的な要約能力のベンチマークを目的としている。
- 参考スコア(独自算出の注目度): 8.083472758337559
- License:
- Abstract: We introduce a dataset of high-quality human-authored summaries of news articles in Norwegian. The dataset is intended for benchmarking the abstractive summarisation capabilities of generative language models. Each document in the dataset is provided with three different candidate gold-standard summaries written by native Norwegian speakers, and all summaries are provided in both of the written variants of Norwegian -- Bokm{\aa}l and Nynorsk. The paper describes details on the data creation effort as well as an evaluation of existing open LLMs for Norwegian on the dataset. We also provide insights from a manual human evaluation, comparing human-authored to model-generated summaries. Our results indicate that the dataset provides a challenging LLM benchmark for Norwegian summarisation capabilities
- Abstract(参考訳): ノルウェーのニュース記事の高品質な人間によるサマリーのデータセットを紹介する。
このデータセットは、生成言語モデルの抽象的な要約能力のベンチマークを目的としている。
データセットの各文書には、ノルウェー語話者によって書かれた3つの異なる金本位制の要約が書かれており、すべての要約はノルウェー語で書かれた「Bokm{\aa}l」と「Nynorsk」の両方で提供されている。
本論文では,データセット上での既存のノルウェー向けオープンLCMの評価とともに,データ作成の取り組みについて詳述する。
また,人手による評価から得られた知見を,モデル生成要約と比較する。
以上の結果から,本データセットはノルウェーの要約能力に挑戦的なLCMベンチマークを提供することが示された。
関連論文リスト
- A Collection of Question Answering Datasets for Norwegian [6.149436325733799]
このデータは、世界知識、常識推論、真理性、ノルウェーに関する知識など、幅広いスキルと知識ドメインをカバーしている。
私たちのデータセットは10万以上の質問応答ペアで構成されており、ネイティブスピーカーによって作成されています。
ほとんどのLMは、ニノルスクよりもボクマールの方が優れており、常識的推論にほとんど苦労しており、しばしば疑問に対する答えを生み出すことに不合理である。
論文 参考訳(メタデータ) (2025-01-19T17:42:48Z) - SWEb: A Large Web Dataset for the Scandinavian Languages [11.41086713693524]
本稿はスカンジナビア語における最大の事前学習データセットであるスカンジナビア語WEb(SWEb)について述べる。
本稿では,ルールベースのアプローチと比較して,複雑性を著しく低減する新しいモデルベースのテキスト抽出手法を提案する。
また、スウェーデンの言語モデルを評価するための新しいクローゼスタイルのベンチマークを導入し、このテストを用いて、SWEbデータでトレーニングされたモデルとFinalWebでトレーニングされたモデルを比較し、競合する結果と比較した。
論文 参考訳(メタデータ) (2024-10-06T11:55:15Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian [4.062031248854444]
ノルウェーの人口はわずか500万人で、NLPのタスクで最も印象的なブレークスルーの中では、表現力に乏しい。
このギャップを埋めるために、既存のノルウェーデータセットをコンパイルし、4つのノルウェーオープン言語モデルを事前訓練しました。
GPT-3.5はノルウェーの文脈を理解する能力に限界があることがわかった。
論文 参考訳(メタデータ) (2023-12-03T08:09:45Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - NorQuAD: Norwegian Question Answering Dataset [0.03281128493853064]
データセットは、手動で作成した4,752組の質問応答ペアで構成されている。
本稿では,複数の言語モデルとノルウェーの単言語モデルを比較し,その性能を比較した。
データセットは無償で提供される。
論文 参考訳(メタデータ) (2023-05-03T08:17:07Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。
トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文 参考訳(メタデータ) (2021-04-13T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。