論文の概要: Align and Shine: Building High-Quality Sentence-Aligned Corpora for Multilingual Text Simplification
- arxiv url: http://arxiv.org/abs/2605.09476v1
- Date: Sun, 10 May 2026 11:07:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.268625
- Title: Align and Shine: Building High-Quality Sentence-Aligned Corpora for Multilingual Text Simplification
- Title(参考訳): Align and Shine:多言語テキスト単純化のための高品質な文対応コーパスの構築
- Authors: Kenji Hilasaca, Nouran Khallaf, Serge Sharoff,
- Abstract要約: テキストの単純化は、多様な読者にとって、文章情報のアクセシビリティと理解性を向上させる上で重要な役割を担っている。
その重要性にもかかわらず、テキスト単純化モデルのトレーニングと評価のための大規模で高品質なデータセットは、英語以外の言語では不足している。
本稿では,複数の言語にまたがるテキスト簡易化システムの学習とテストに適したコーパスを構築するために,クラウドソースによる簡易化データの収集と処理に関する実験的検討を行った。
- 参考スコア(独自算出の注目度): 1.7569235627175406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text simplification plays a crucial role in improving the accessibility and comprehensibility of written information for diverse audiences, including language learners and readers with limited literacy. Despite its importance, large-scale, high-quality datasets for training and evaluating text simplification models remain scarce for languages other than English. This paper reports an experimental study on the collection and processing of crowd-sourced simplification data from comparable corpora to construct a corpus suitable for both training and testing text simplification systems across multiple languages (Catalan, English, French, Italian and Spanish). We report mechanisms for sentence-level alignment from document-level data. The resulting dataset of the aligned sentence pairs is publicly available.
- Abstract(参考訳): テキストの単純化は、言語学習者やリテラシーに制限のある読者を含む多様な読者にとって、文章情報のアクセシビリティと理解性を向上させる上で重要な役割を担っている。
その重要性にもかかわらず、テキスト単純化モデルのトレーニングと評価のための大規模で高品質なデータセットは、英語以外の言語では不足している。
本稿では,複数の言語(カタラン語,英語,フランス語,イタリア語,スペイン語)にまたがるテキスト単純化システムの訓練と試験に適したコーパスを構築するために,同種のコーパスからクラウドソースによる簡易化データの収集と処理に関する実験的検討を行った。
文書レベルのデータから文レベルのアライメントのメカニズムを報告する。
一致した文ペアのデータセットが公開されている。
関連論文リスト
- BhashaKritika: Building Synthetic Pretraining Data at Scale for Indic Languages [4.279942349440352]
Indic言語のための合成多言語事前学習データの生成と評価に関する体系的研究を行う。
大規模な合成データセットBhashaKritikaを構築し,10言語で5つの異なる手法を用いて540Bトークンを構成する。
我々は、プロンプト命令と文書のグラウンド化の両方において、言語選択がデータ品質にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2025-11-13T14:12:44Z) - LangGPS: Language Separability Guided Data Pre-Selection for Joint Multilingual Instruction Tuning [49.22807995935406]
大規模言語モデル(LLM)の多言語命令追従能力と下流性能を改善するための多言語命令チューニングは広く採用されている手法である。
既存の選択法は、しばしばテキストの品質、多様性、タスク関連性といった特徴に基づいており、典型的には多言語データの固有の言語構造を見落としている。
言語分離性によって導かれる軽量な2段階事前選択フレームワークであるLangGPSを提案する。
論文 参考訳(メタデータ) (2025-11-13T12:02:32Z) - Aligning Sentence Simplification with ESL Learner's Proficiency for Language Acquisition [11.700462697630696]
本研究は,第2言語学習者の簡易化による英語習得を支援することを目的としている。
本稿では,複雑な文を学習者に適したレベルに単純化すると同時に,目的レベルの語彙的カバレッジを高めることを提案する。
本手法では,トークンレベルの報酬と文レベルの報酬を用いて,目標属性を満たす単純化仮説を探索するために,自己生成出力のモデルを反復的に訓練する。
論文 参考訳(メタデータ) (2025-02-17T05:32:56Z) - Decomposed Prompting: Probing Multilingual Linguistic Structure Knowledge in Large Language Models [54.58989938395976]
本稿では,シーケンスラベリングタスクに対する分割プロンプト手法を提案する。
提案手法は,38言語を対象としたUniversal Dependencies part-of-speech Taggedについて検証する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - A Novel Dataset for Financial Education Text Simplification in Spanish [4.475176409401273]
スペイン語では、テキスト単純化システムを作成するために使用できるデータセットはほとんどない。
我々は、確立された単純化規則を用いて、5,314の複雑で単純化された文対からなるデータセットを作成しました。
論文 参考訳(メタデータ) (2023-12-15T15:47:08Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。