Fugu-MT 論文翻訳(概要): LR-Sum: Summarization for Less-Resourced Languages

論文の概要: LR-Sum: Summarization for Less-Resourced Languages

arxiv url: http://arxiv.org/abs/2212.09674v1
Date: Mon, 19 Dec 2022 18:00:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 16:56:46.790496
Title: LR-Sum: Summarization for Less-Resourced Languages
Title（参考訳）: LR-Sum:低リソース言語のための要約
Authors: Chester Palen-Michel and Constantine Lignos
Abstract要約: このプレプリントでは、新しいパーミッシブライセンスデータセットであるLR-Sumの開発が進行中である。 LR-Sumには40言語のための人間による要約が含まれており、その多くはオープンソースではない。ソースデータはVoice of Americaのウェブサイトから収集されたパブリックドメインのニュースワイヤであり、LR-Sumはクリエイティブ・コモンズ・ライセンス(CC BY 4.0)の下でリリースされている。
参考スコア（独自算出の注目度）: 3.1219977244201056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This preprint describes work in progress on LR-Sum, a new permissively-licensed dataset created with the goal of enabling further research in automatic summarization for less-resourced languages. LR-Sum contains human-written summaries for 40 languages, many of which are less-resourced. We describe our process for extracting and filtering the dataset from the Multilingual Open Text corpus (Palen-Michel et al., 2022). The source data is public domain newswire collected from from Voice of America websites, and LR-Sum is released under a Creative Commons license (CC BY 4.0), making it one of the most openly-licensed multilingual summarization datasets. We describe how we plan to use the data for modeling experiments and discuss limitations of the dataset.
Abstract（参考訳）: LR-Sumは、低リソース言語の自動要約のさらなる研究を可能にするために作られた新しいパーミッシブライセンスデータセットである。 LR-Sumには40言語のための人間による要約が含まれており、その多くはオープンソースではない。本稿では,多言語オープンテキストコーパス(Palen-Michel et al.,2022)からデータセットを抽出・フィルタリングするプロセスについて述べる。ソースデータはVoice of Americaのウェブサイトから収集されたパブリックドメインのニュースワイヤであり、LR-SumはCreative Commonsライセンス(CC BY 4.0)の下でリリースされ、最もオープンにライセンスされた多言語要約データセットの1つである。実験のモデリングにデータをどのように利用するかを説明し、データセットの制限について論じる。

関連論文リスト

Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training [6.00143998001152]
言語モデル事前学習のための最大のオープンデータセットであるCommon Corpusを紹介する。データセットには、ヨーロッパの主要言語から、事前トレーニングデータセットにはほとんど存在しない低リソース言語まで、さまざまな言語が含まれている。
論文参考訳（メタデータ） (2025-06-02T14:43:15Z)
Efficient Continual Pre-training of LLMs for Low-resource Languages [45.44796295841526]
大規模コーパスからテキストのサブセットを選択するアルゴリズムを開発した。さらなる改良を求めて,LLM語彙に含まれるトークンを選択する新しいアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-12-13T16:13:35Z)
UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages [2.66269503676104]
大規模言語モデル(LLM)は低リソース言語での性能が低い。低リソース言語のためのテキストデータを効率的に収集する手法を提案する。我々のアプローチであるUnifiedCrawlは、最小限の計算リソースを使用して共通のクローをフィルタし、抽出する。
論文参考訳（メタデータ） (2024-11-21T17:41:08Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
A Mixed-Language Multi-Document News Summarization Dataset and a Graphs-Based Extract-Generate Model [15.596156608713347]
現実のシナリオでは、国際イベントに関するニュースは、しばしば異なる言語で複数のドキュメントを含む。混合言語多文書ニュース要約データセット(MLMD-news)を構築する。このデータセットには、4つの異なる言語、10,992のソースドキュメントクラスタとターゲット要約ペアが含まれている。
論文参考訳（メタデータ） (2024-10-13T08:15:33Z)
IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages [37.79850860981589]
本研究は、Indic LLMの開発に特化して設計された、拡張性のあるリソーススイートを紹介する。このアプローチでは、高度にキュレートされた手作業による検証データ、検証されていないが価値のあるデータ、合成データを組み合わせています。命令ファインチューニングでは、既存のIndicデータセットをアマルガメートし、英語データセットをインド語に翻訳・翻訳し、LLaMa2とMixtralモデルを利用する。
論文参考訳（メタデータ） (2024-03-11T00:46:56Z)
UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。本研究では,オープンソースの多言語教師付き微調整データセットを構築する。結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文参考訳（メタデータ） (2024-02-07T05:05:53Z)
GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。 1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文参考訳（メタデータ） (2023-10-24T23:45:57Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。本研究では,NLS(Neural Label Search for Summarization)を提案する。我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文参考訳（メタデータ） (2022-04-28T14:02:16Z)
MTVR: Multilingual Moment Retrieval in Videos [89.24431389933703]
大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。両言語からのデータを学習し,操作する多言語モーメント検索モデルであるmXMLを提案する。
論文参考訳（メタデータ） (2021-07-30T20:01:03Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)
The Tatoeba Translation Challenge -- Realistic Data Sets for Low Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文参考訳（メタデータ） (2020-10-13T13:12:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。