論文の概要: Leveraging Digitized Newspapers to Collect Summarization Data in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2511.14598v1
- Date: Tue, 18 Nov 2025 15:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.187666
- Title: Leveraging Digitized Newspapers to Collect Summarization Data in Low-Resource Languages
- Title(参考訳): 低リソース言語における要約データ収集のためのデジタル化新聞の活用
- Authors: Noam Dahan, Omer Kidron, Gabriel Stanovsky,
- Abstract要約: 本稿では, フロントページティーザーによる自然発生サマリーの収集手法を提案する。
この現象は7つの多言語で共通であり,多文書要約をサポートすることを示す。
我々はこのプロセスをヘブライ語新聞のタイトルに適用し、ヘブライ語で最初の多文書要約データセットであるHEBTEASESUMを作成した。
- 参考スコア(独自算出の注目度): 16.066443926940753
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: High quality summarization data remains scarce in under-represented languages. However, historical newspapers, made available through recent digitization efforts, offer an abundant source of untapped, naturally annotated data. In this work, we present a novel method for collecting naturally occurring summaries via Front-Page Teasers, where editors summarize full length articles. We show that this phenomenon is common across seven diverse languages and supports multi-document summarization. To scale data collection, we develop an automatic process, suited to varying linguistic resource levels. Finally, we apply this process to a Hebrew newspaper title, producing HEBTEASESUM, the first dedicated multi-document summarization dataset in Hebrew.
- Abstract(参考訳): ハイクオリティの要約データは、表現不足の言語では依然として少ない。
しかし、最近のデジタル化の取り組みを通じて入手できた歴史新聞は、未完成で自然な注釈付きデータの豊富な情報源を提供している。
本研究は,編集者が記事の全長を要約するFront-Page Teasersを通じて,自然に生じる要約を収集する新しい手法を提案する。
この現象は7つの多言語で共通であり,多文書要約をサポートすることを示す。
データ収集をスケールするために,様々な言語資源レベルに適合する自動プロセスを開発する。
最後に、このプロセスをヘブライ語新聞のタイトルに適用し、ヘブライ語で最初の多文書要約データセットであるHEBTEASESUMを作成した。
関連論文リスト
- HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models [25.953042884928006]
約200の言語に対して、オープンで、非常に大きく、高品質で、リッチな注釈付きテキストデータセットを提供するためのイニシアティブを提示します。
30兆のトークンで、これはおそらくLLM事前学習データの多言語収集としては最大である。
57種類のモノリンガルエンコーダ-デコーダモデルと、少数のモノリンガルGPT様参照モデルを訓練し、評価する。
論文 参考訳(メタデータ) (2025-11-02T20:16:38Z) - MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [48.73595915402094]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - LoRaLay: A Multilingual and Multimodal Dataset for Long Range and
Layout-Aware Summarization [19.301567079372436]
テキスト要約は、自然言語処理コミュニティにとって人気のある課題であり、研究の活発な領域である。
すべての公開可能な要約データセットは、プレーンテキストコンテンツのみを提供する。
視覚/レイ情報を伴う長距離要約のためのデータセットのコレクションであるLoRaLayを提示する。
論文 参考訳(メタデータ) (2023-01-26T18:50:54Z) - X-SCITLDR: Cross-Lingual Extreme Summarization of Scholarly Documents [12.493662336994106]
学術領域における4つの異なる言語に対する抽象的言語間要約データセットを提案する。
我々は、英語論文を処理し、ドイツ語、イタリア語、中国語、日本語で要約を生成するモデルを訓練し、評価する。
論文 参考訳(メタデータ) (2022-05-30T12:31:28Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Klexikon: A German Dataset for Joint Summarization and Simplification [2.931632009516441]
我々は、ドイツ語ウィキペディアとドイツ語児童辞書「クレキシコン」に基づく共同テキスト簡素化と要約のための新しいデータセットを作成する。
我々は要約の側面を強調し、この資源が単純化にも適しているという統計的証拠を提供する。
論文 参考訳(メタデータ) (2022-01-18T18:50:43Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。