論文の概要: Introducing the Welsh Text Summarisation Dataset and Baseline Systems
- arxiv url: http://arxiv.org/abs/2205.02545v1
- Date: Thu, 5 May 2022 10:12:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 23:50:23.878494
- Title: Introducing the Welsh Text Summarisation Dataset and Baseline Systems
- Title(参考訳): ウェールズ語テキスト要約データセットとベースラインシステムの導入
- Authors: Ignatius Ezeani and Mahmoud El-Haj and Jonathan Morris and Dawn Knight
- Abstract要約: ウェールズ語はウェールズの公用語であり、推定84万8300人(ウェールズの人口の29.2%)によって話されている
本稿では,研究目的で自由に提供されるウェールズ語要約データセットについて紹介する。
- 参考スコア(独自算出の注目度): 0.4683612295430956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Welsh is an official language in Wales and is spoken by an estimated 884,300
people (29.2% of the population of Wales). Despite this status and estimated
increase in speaker numbers since the last (2011) census, Welsh remains a
minority language undergoing revitalization and promotion by Welsh Government
and relevant stakeholders. As part of the effort to increase the availability
of Welsh digital technology, this paper introduces the first Welsh
summarisation dataset, which we provide freely for research purposes to help
advance the work on Welsh text summarization. The dataset was created by Welsh
speakers by manually summarising Welsh Wikipedia articles. In addition, the
paper discusses the implementation and evaluation of different summarisation
systems for Welsh. The summarization systems and results will serve as
benchmarks for the development of summarises in other minority language
contexts.
- Abstract(参考訳): ウェールズ語はウェールズの公用語であり、推定884,300人(ウェールズの人口の29.2%)が話されている。
この地位と2011年の国勢調査以来の話者数の増加にもかかわらず、ウェールズはウェールズ政府および関連する利害関係者による活性化と促進を受けている少数言語である。
ウェールズ語デジタル技術の利用性を高める取り組みの一環として,本論文では,ウェールズ語テキストの要約作業を進めるために,研究目的で無償で提供される最初のウェールズ語要約データセットについて紹介する。
このデータセットはウェールズ語話者によって、ウェールズ語版ウィキペディアの記事を手作業で要約して作成された。
さらに,ウェールズ語における様々な要約システムの実装と評価について論じる。
要約システムと結果は、他の少数言語の文脈における要約の開発のためのベンチマークとして機能する。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Multilingual Coreference Resolution in Low-resource South Asian Languages [36.31301773167754]
韓国語31言語に翻訳データセット(TransMuCoRes)を導入する。
予測された翻訳のほぼ全てが正当性検査に合格し、英語の参照の75%は予測された翻訳と一致している。
本研究は,ヒンディー語黄金集合上でのエンド・ツー・エンドのコア参照分解モデルを評価する最初のものである。
論文 参考訳(メタデータ) (2024-02-21T07:05:51Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Data-to-text Generation for Severely Under-Resourced Languages with
GPT-3.5: A Bit of Help Needed from Google Translate [5.632410663467911]
言語学習システムは、トレーニングデータに過小評価されている言語に関わるタスクにどのように対処するかを検討する。
これには、アイルランド語、マルタ語、ウェールズ語、ブルトン語のデータ・テキスト生成が含まれる。
ごくわずかのプロンプトは、リソース不足の言語への直接生成に効果があるが、英語でピボットすると違いは消えてしまう。
我々は、最先端のLLMを用いて、アウト・オブ・ザ・ボックスで、アン・リソース言語での優れた性能を達成できると結論付けた。
論文 参考訳(メタデータ) (2023-08-19T09:19:34Z) - Dolphin: A Challenging and Diverse Benchmark for Arabic NLG [21.06280737470819]
Dolphinは、自然言語生成(NLG)評価フレームワークの必要性に対処する新しいベンチマークである。
Dolphinは、50のテストスプリットにまたがる40の多様性と代表的なパブリックデータセットからなる、実質的なコーパスで構成されている。
アラビア語および多言語モデルの性能と一般化能力を評価するための新しい標準を設定している。
論文 参考訳(メタデータ) (2023-05-24T10:24:10Z) - PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for
Languages in India [33.31556860332746]
PMIndiaSumは、インドの言語に焦点を当てた多言語および大規模並列要約コーパスである。
私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアを持つ最大規模のトレーニングとテストの場を提供します。
論文 参考訳(メタデータ) (2023-05-15T17:41:15Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。