論文の概要: Large Language Models for Summarizing Czech Historical Documents and Beyond
- arxiv url: http://arxiv.org/abs/2508.10368v1
- Date: Thu, 14 Aug 2025 06:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.196411
- Title: Large Language Models for Summarizing Czech Historical Documents and Beyond
- Title(参考訳): チェコの歴史的文書を要約する大規模な言語モデル
- Authors: Václav Tran, Jakub Šmíd, Jiří Martínek, Ladislav Lenc, Pavel Král,
- Abstract要約: 要約は、重要な意味と重要な情報を保持しながら、より大きなテキストを簡潔なバージョンに短縮するタスクである。
我々はMistralやmT5といった大規模言語モデルを用いて、現代のチェコの要約データセットであるSumeCzechの最先端結果を実現している。
本稿では,チェコの歴史的文書をベースラインで要約するための,Posel od vCerchovaという新しいデータセットを紹介する。
- 参考スコア(独自算出の注目度): 1.4680035572775534
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text summarization is the task of shortening a larger body of text into a concise version while retaining its essential meaning and key information. While summarization has been significantly explored in English and other high-resource languages, Czech text summarization, particularly for historical documents, remains underexplored due to linguistic complexities and a scarcity of annotated datasets. Large language models such as Mistral and mT5 have demonstrated excellent results on many natural language processing tasks and languages. Therefore, we employ these models for Czech summarization, resulting in two key contributions: (1) achieving new state-of-the-art results on the modern Czech summarization dataset SumeCzech using these advanced models, and (2) introducing a novel dataset called Posel od \v{C}erchova for summarization of historical Czech documents with baseline results. Together, these contributions provide a great potential for advancing Czech text summarization and open new avenues for research in Czech historical text processing.
- Abstract(参考訳): テキスト要約は、本質的な意味と重要な情報を保持しつつ、より大きなテキストを簡潔なバージョンに短縮するタスクである。
要約は英語や他の高資源言語で顕著に研究されているが、チェコ語の要約、特に歴史的文書は、言語的な複雑さと注釈付きデータセットの不足により、未発見のままである。
MistralやmT5のような大規模な言語モデルは、多くの自然言語処理タスクや言語に対して優れた結果を示している。
その結果,(1)近代チェコの要約データセットSumeCzechにおける新しい最先端結果の達成,(2)チェコの歴史的文書をベースラインで要約するためのPosel od \v{C}erchovaと呼ばれる新しいデータセットの導入,という2つの重要な貢献が得られた。
これらの貢献はチェコのテキスト要約を進展させる大きな可能性を与え、チェコの歴史的テキスト処理の研究のための新たな道を開いた。
関連論文リスト
- ARLED: Leveraging LED-based ARMAN Model for Abstractive Summarization of Persian Long Documents [0.0]
著者はEnsaniのWebサイトから入手した30万のフルテキストペルシア語の論文のデータセットを紹介している。
彼らは、要約を生成するために、Longformerアーキテクチャに基づいたARMANモデルを適用します。
結果はペルシャ語のテキスト要約における有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-13T10:16:46Z) - BenCzechMark : A Czech-centric Multitask and Multimetric Benchmark for Large Language Models with Duel Scoring Mechanism [30.267465719961585]
BenCzechMark (BCM) は、大規模な言語モデル向けに設計されたチェコ初の総合的な言語ベンチマークである。
私たちのベンチマークには50の課題があり、対応するテストデータセット、主にチェコ原産で、新たに収集された14のタスクが含まれています。
これらのタスクは8つのカテゴリにまたがり、歴史的チェコのニュース、生徒や言語学習者のエッセイ、話し言葉など様々な分野をカバーする。
論文 参考訳(メタデータ) (2024-12-23T19:45:20Z) - RoLargeSum: A Large Dialect-Aware Romanian News Dataset for Summary, Headline, and Keyword Generation [2.3577273565334522]
RoLargeSumはルーマニア語のための新しい大規模要約データセットである。
ルーマニアとモルドバ共和国の様々な公開ニュースサイトからクロールされた。
論文 参考訳(メタデータ) (2024-12-15T21:27:33Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - CNewSum: A Large-scale Chinese News Summarization Dataset with
Human-annotated Adequacy and Deducibility Level [15.969302324314516]
大規模中国語ニュース要約データセットCNewSumについて述べる。
304,307件の文書と人によるニュースフィードの要約で構成されている。
そのテストセットには、要約のための妥当性と再現性アノテーションが含まれている。
論文 参考訳(メタデータ) (2021-10-21T03:37:46Z) - Fine-tuning GPT-3 for Russian Text Summarization [77.34726150561087]
本稿では,テキストを要約するruGPT3(ruGPT3)機能について紹介し,それに対応する人文要約を用いてロシア語ニュースのコーパスを微調整する。
得られたテキストを一連のメトリクスで評価し、アーキテクチャや損失関数に付加的な変更を加えることなく、我々のソリューションが最先端のモデルの性能を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-08-07T19:01:40Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。