論文の概要: Large Language Models for the Summarization of Czech Documents: From History to the Present
- arxiv url: http://arxiv.org/abs/2511.18848v1
- Date: Mon, 24 Nov 2025 07:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.086715
- Title: Large Language Models for the Summarization of Czech Documents: From History to the Present
- Title(参考訳): チェコ語文書の要約のための大規模言語モデル:歴史から現在まで
- Authors: Václav Tran, Jakub Šmíd, Ladislav Lenc, Jean-Pierre Salmon, Pavel Král,
- Abstract要約: テキスト要約は、より長いテキストを、元の意味とキー情報を保存しながら、より短く一貫性のある要約に自動的に凝縮するタスクである。
これは主にチェコ固有の言語学的複雑さと高品質な注釈付きデータセットの欠如によるものである。
このギャップに対処するために、大規模言語モデル(LLM)、特にMistralとmT5の機能を活用します。
また、まずチェコ語のテキストを英語に翻訳し、それらを英語モデルで要約し、その後、要約をチェコ語に翻訳する翻訳ベースのアプローチを提案する。
- 参考スコア(独自算出の注目度): 2.124799222903955
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text summarization is the task of automatically condensing longer texts into shorter, coherent summaries while preserving the original meaning and key information. Although this task has been extensively studied in English and other high-resource languages, Czech summarization, particularly in the context of historical documents, remains underexplored. This is largely due to the inherent linguistic complexity of Czech and the lack of high-quality annotated datasets. In this work, we address this gap by leveraging the capabilities of Large Language Models (LLMs), specifically Mistral and mT5, which have demonstrated strong performance across a wide range of natural language processing tasks and multilingual settings. In addition, we also propose a translation-based approach that first translates Czech texts into English, summarizes them using an English-language model, and then translates the summaries back into Czech. Our study makes the following main contributions: We demonstrate that LLMs achieve new state-of-the-art results on the SumeCzech dataset, a benchmark for modern Czech text summarization, showing the effectiveness of multilingual LLMs even for morphologically rich, medium-resource languages like Czech. We introduce a new dataset, Posel od Čerchova, designed for the summarization of historical Czech texts. This dataset is derived from digitized 19th-century publications and annotated for abstractive summarization. We provide initial baselines using modern LLMs to facilitate further research in this underrepresented area. By combining cutting-edge models with both modern and historical Czech datasets, our work lays the foundation for further progress in Czech summarization and contributes valuable resources for future research in Czech historical document processing and low-resource summarization more broadly.
- Abstract(参考訳): テキスト要約は、より長いテキストを、元の意味とキー情報を保存しながら、より短く一貫性のある要約に自動的に凝縮するタスクである。
この課題は英語や他の高資源言語で広く研究されてきたが、チェコの要約、特に歴史文献の文脈では未解明のままである。
これは主にチェコ固有の言語学的複雑さと高品質な注釈付きデータセットの欠如によるものである。
本研究では,大規模言語モデル(LLM),特にMistralとmT5の機能を活用することで,このギャップに対処する。
さらに、まずチェコ語のテキストを英語に翻訳し、それらを英語モデルで要約し、その後、要約をチェコ語に翻訳する翻訳ベースのアプローチを提案する。
チェコ語テキスト要約のベンチマークであるSumeCzechデータセットにおいて、LLMが新たな最先端の成果を達成することを実証し、チェコ語のような形態的にリッチな中規模の言語であっても、多言語LLMの有効性を示す。
我々は、チェコの歴史的テキストの要約のために設計された新しいデータセットPosel od serchovaを紹介した。
このデータセットは、19世紀のデジタル化された出版物から派生し、抽象的な要約のために注釈付けされている。
我々は、この未表現領域のさらなる研究を促進するために、現代のLCMを用いて、初期ベースラインを提供する。
最新のチェコのデータセットと歴史的チェコのデータセットを組み合わせることで、チェコの要約のさらなる進歩の基礎を築き、チェコの歴史的文書処理と低リソースの要約において、将来の研究に貴重なリソースを貢献する。
関連論文リスト
- Large Language Models for Summarizing Czech Historical Documents and Beyond [1.4680035572775534]
要約は、重要な意味と重要な情報を保持しながら、より大きなテキストを簡潔なバージョンに短縮するタスクである。
我々はMistralやmT5といった大規模言語モデルを用いて、現代のチェコの要約データセットであるSumeCzechの最先端結果を実現している。
本稿では,チェコの歴史的文書をベースラインで要約するための,Posel od vCerchovaという新しいデータセットを紹介する。
論文 参考訳(メタデータ) (2025-08-14T06:07:49Z) - skLEP: A Slovak General Language Understanding Benchmark [0.030113849517062304]
skLEPはスロバキアの自然言語理解(NLU)モデルを評価するために特別に設計された最初の包括的なベンチマークである。
このベンチマークを作成するために、スロバキア向けに調整された新しいオリジナルデータセットをキュレートし、精密に英語のNLUリソースを翻訳した。
本稿では,スロバキア固有の言語モデル,多言語言語モデル,および英語事前学習言語モデルの体系的および広範囲な評価を行う。
論文 参考訳(メタデータ) (2025-06-26T17:35:04Z) - BenCzechMark : A Czech-centric Multitask and Multimetric Benchmark for Large Language Models with Duel Scoring Mechanism [30.267465719961585]
BenCzechMark (BCM) は、大規模な言語モデル向けに設計されたチェコ初の総合的な言語ベンチマークである。
私たちのベンチマークには50の課題があり、対応するテストデータセット、主にチェコ原産で、新たに収集された14のタスクが含まれています。
これらのタスクは8つのカテゴリにまたがり、歴史的チェコのニュース、生徒や言語学習者のエッセイ、話し言葉など様々な分野をカバーする。
論文 参考訳(メタデータ) (2024-12-23T19:45:20Z) - RoLargeSum: A Large Dialect-Aware Romanian News Dataset for Summary, Headline, and Keyword Generation [2.3577273565334522]
RoLargeSumはルーマニア語のための新しい大規模要約データセットである。
ルーマニアとモルドバ共和国の様々な公開ニュースサイトからクロールされた。
論文 参考訳(メタデータ) (2024-12-15T21:27:33Z) - Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。
私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文 参考訳(メタデータ) (2024-04-07T11:52:44Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。