Fugu-MT 論文翻訳(概要): RoLargeSum: A Large Dialect-Aware Romanian News Dataset for Summary, Headline, and Keyword Generation

論文の概要: RoLargeSum: A Large Dialect-Aware Romanian News Dataset for Summary, Headline, and Keyword Generation

arxiv url: http://arxiv.org/abs/2412.11317v1
Date: Sun, 15 Dec 2024 21:27:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.130961
Title: RoLargeSum: A Large Dialect-Aware Romanian News Dataset for Summary, Headline, and Keyword Generation
Title（参考訳）: RoLargeSum: 概要、見出し、キーワード生成のためのルーマニア語ニュースデータセット
Authors: Andrei-Marius Avram, Mircea Timpuriu, Andreea Iuga, Vlad-Cristian Matei, Iulian-Marius Tăiatu, Tudor Găină, Dumitru-Clementin Cercel, Florin Pop, Mihaela-Claudia Cercel,
Abstract要約: RoLargeSumはルーマニア語のための新しい大規模要約データセットである。ルーマニアとモルドバ共和国の様々な公開ニュースサイトからクロールされた。
参考スコア（独自算出の注目度）: 2.3577273565334522
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Using supervised automatic summarisation methods requires sufficient corpora that include pairs of documents and their summaries. Similarly to many tasks in natural language processing, most of the datasets available for summarization are in English, posing challenges for developing summarization models in other languages. Thus, in this work, we introduce RoLargeSum, a novel large-scale summarization dataset for the Romanian language crawled from various publicly available news websites from Romania and the Republic of Moldova that were thoroughly cleaned to ensure a high-quality standard. RoLargeSum contains more than 615K news articles, together with their summaries, as well as their headlines, keywords, dialect, and other metadata that we found on the targeted websites. We further evaluated the performance of several BART variants and open-source large language models on RoLargeSum for benchmarking purposes. We manually evaluated the results of the best-performing system to gain insight into the potential pitfalls of this data set and future development.
Abstract（参考訳）: 教師付き自動要約手法を使用するには、文書と要約のペアを含む十分なコーパスが必要である。自然言語処理における多くのタスクと同様に、要約に利用可能なデータセットのほとんどは英語であり、他の言語で要約モデルを開発する上での課題を提起している。そこで本研究では,ルーマニアとモルドバ共和国の様々な公開ニュースサイトから収集した,ルーマニア語のための新しい大規模要約データセットであるRoLargeSumを紹介した。 RoLargeSumには615万件以上のニュース記事と要約、見出し、キーワード、方言、その他のメタデータが含まれている。さらに、ベンチマーク目的のRoLargeSum上で、いくつかのBART変種およびオープンソースの大言語モデルの性能を評価した。我々は,このデータセットの潜在的な落とし穴と今後の開発に関する洞察を得るために,最高のパフォーマンスシステムの結果を手作業で評価した。

関連論文リスト

Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality [74.59049806800176]
このデモペーパーでは、Tevatronツールキットの重要な特徴、学界と産業の橋渡しについて取り上げている。強い多言語・多モーダルな有効性を実現するための密集型検索器について紹介する。私たちはOmniEmbedもリリースしています。私たちの知る限り、テキスト、画像ドキュメント、ビデオ、オーディオ検索を統一する最初の埋め込みモデルです。
論文参考訳（メタデータ） (2025-05-05T08:52:49Z)
Building Russian Benchmark for Evaluation of Information Retrieval Models [0.0]
RusBEIRは、ロシア語における情報検索モデルの評価のためのベンチマークである。適応、翻訳、新しく作成されたデータセットを統合し、語彙モデルとニューラルモデルの比較を可能にする。
論文参考訳（メタデータ） (2025-04-17T12:11:14Z)
L3Cube-MahaSum: A Comprehensive Dataset and BART Models for Abstractive Text Summarization in Marathi [0.4194295877935868]
本稿では,マラタイにおける多種多様なニュース記事の大規模コレクションであるMahaSUMデータセットについて述べる。データセットは、広範囲のオンラインニュースソースから記事を取り除き、抽象的な要約を手作業で検証することで作成されました。我々は、MahaSUMデータセットを使用して、Indic言語用に調整されたBARTモデルの変種であるIndicBARTモデルをトレーニングする。
論文参考訳（メタデータ） (2024-10-11T18:37:37Z)
MegaWika: Millions of reports and their sources across 50 diverse languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。 MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文参考訳（メタデータ） (2023-07-13T20:04:02Z)
XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。 XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文参考訳（メタデータ） (2023-05-19T18:00:03Z)
LoRaLay: A Multilingual and Multimodal Dataset for Long Range and Layout-Aware Summarization [19.301567079372436]
テキスト要約は、自然言語処理コミュニティにとって人気のある課題であり、研究の活発な領域である。すべての公開可能な要約データセットは、プレーンテキストコンテンツのみを提供する。視覚/レイ情報を伴う長距離要約のためのデータセットのコレクションであるLoRaLayを提示する。
論文参考訳（メタデータ） (2023-01-26T18:50:54Z)
GAE-ISumm: Unsupervised Graph-Based Summarization of Indian Languages [5.197307534263253]
文書要約は、テキスト文書の正確で一貫性のある要約を作成することを目的としている。多くのディープラーニングの要約モデルは、主に英語向けに開発されており、大きなトレーニングコーパスを必要とすることが多い。本稿では,テキスト文書から要約を抽出する教師なしのIndic summarizationモデルであるGAE-ISummを提案する。
論文参考訳（メタデータ） (2022-12-25T17:20:03Z)
Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文参考訳（メタデータ） (2022-02-19T11:55:40Z)
Evaluation of Abstractive Summarisation Models with Machine Translation in Deliberative Processes [23.249742737907905]
このデータセットは、主に文法的品質の低い複数の物語を単一のテキストで組み合わせることの難しさを反映している。本稿では,市販機械翻訳モデルと組み合わせて,多種多様な抽象的要約モデルを広範囲に評価する。生成した要約の流布,一貫性,関連性について有望な結果を得た。
論文参考訳（メタデータ） (2021-10-12T09:23:57Z)
Assessing the quality of sources in Wikidata across languages: a hybrid approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文参考訳（メタデータ） (2021-09-20T10:06:46Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
The Tatoeba Translation Challenge -- Realistic Data Sets for Low Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文参考訳（メタデータ） (2020-10-13T13:12:21Z)
Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文参考訳（メタデータ） (2020-08-21T20:59:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。