論文の概要: A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes
- arxiv url: http://arxiv.org/abs/2603.05345v1
- Date: Thu, 05 Mar 2026 16:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.318674
- Title: A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes
- Title(参考訳): 原文・読みやすい多言語注釈コーパスによる民主的参加プロセスへのアクセス支援
- Authors: Stefan Bott, Verena Riegler, Horacio Saggion, Almudena Rascón Alcaina, Nouran Khallaf,
- Abstract要約: スペイン語、カタルーニャ語、イタリア語の原文のコーパスを提示する。
iDEMプロジェクトで開発され、民主的参加のためのイージー・トゥ・リード(E2R)言語の影響を評価するために開発された。
- 参考スコア(独自算出の注目度): 1.4745280175321207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Being able to understand information is a key factor for a self-determined life and society. It is also very important for participating in democratic processes. The study of automatic text simplification is often limited by the availability of high quality material for the training and evaluation on automatic simplifiers. This is true for English, but more so for less resourced languages like Spanish, Catalan and Italian. In order to fill this gap, we present a corpus of original texts for these 3 languages, with high quality simplification produced by human experts in text simplification. It was developed within the iDEM project to assess the impact of Easy-to-Read (E2R) language for democratic participation. The original texts were compiled from domains related to this topic. The corpus includes different text types, selected based on relevance, copyright availability, and ethical standards. All texts were simplified to E2R level. The corpus is particularity valuable because it includes the first annotated corpus of its kind for the Catalan language. It also represents a noteworthy contribution for Spanish and Italian, offering high-quality, human-annotated language resources that are rarely available in these domains. The corpus will be made freely accessible to the public.
- Abstract(参考訳): 情報を理解することは、自己決定的な生活と社会にとって重要な要素である。
また、民主的なプロセスに参加する上でも非常に重要である。
自動テキストの簡易化に関する研究は、しばしば、自動テキストの簡易化に関するトレーニングと評価のための高品質な材料が利用可能であることによって制限される。
これは英語には当てはまりますが、スペイン語、カタルーニャ語、イタリア語といったリソースの少ない言語には当てはまります。
このギャップを埋めるために、我々はこれらの3つの言語の原文のコーパスを提示する。
iDEMプロジェクトで開発され、民主的参加のためのイージー・トゥ・リード(E2R)言語の影響を評価するために開発された。
原本はこの話題に関連する諸藩から編纂されたものである。
コーパスには異なるテキストタイプが含まれており、関連性、著作権の可用性、倫理基準に基づいて選択される。
全てのテキストはE2Rレベルに単純化された。
このコーパスはカタルーニャ語で最初の注釈付きコーパスを含んでいるので、特に価値がある。
また、スペイン語とイタリア語に特筆すべき貢献であり、これらのドメインではめったに利用できない高品質で人間による注釈付き言語リソースを提供している。
コーパスは無料で公開されます。
関連論文リスト
- A System for Automatic English Text Expansion [10.475422682581115]
自動」とは、システムは最小限の単語集合から一貫性と正しい文を生成することができることを意味する。
英語では,高度に正確なaLexiE辞書を作成した。
システムは、レポートやニュース生成といった他のドメインにも適用できる。
論文 参考訳(メタデータ) (2024-05-28T16:48:05Z) - Data and Approaches for German Text simplification -- towards an
Accessibility-enhanced Communication [0.0]
本稿では,ドイツ語テキストの簡易化の現状を考察し,並列化と単言語的ドイツ語コーパスに着目した。
ドイツのテキストを単純化するためのニューラルネットワークモデルをレビューし、法的テキストとアクセシビリティ要件に対するそれらの適合性を評価する。
著者らは2023年4月にこれらの研究ギャップに対処するため、学際的なOPEN-LSプロジェクトを立ち上げた。
論文 参考訳(メタデータ) (2023-12-15T17:23:33Z) - Teacher Perception of Automatically Extracted Grammar Concepts for L2
Language Learning [66.79173000135717]
本研究は、カンナダ語とマラティ語という2つのインドの言語教育に適用する。
我々は、形態素構文(単語順、一致、ケースマーキング、または単語形成の学習)と意味論(語彙の学習)に関する疑問に答える自然なテキストコーパスから記述を抽出する。
我々は,北米の学校から言語教育者の助けを借りて手作業による評価を行い,教材が授業の準備や学習者評価に利用できる可能性を見出した。
論文 参考訳(メタデータ) (2023-10-27T18:17:29Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - Lexical Simplification Benchmarks for English, Portuguese, and Spanish [23.90236014260585]
英語,スペイン語,(ブラジル語)ポルトガル語の語彙単純化のための新しいベンチマークデータセットを提案する。
これは3つの言語の語彙的単純化システムを直接比較した最初のデータセットである。
最先端の神経語彙単純化システムは,3言語すべてで最先端の非神経語彙単純化システムより優れていた。
論文 参考訳(メタデータ) (2022-09-12T15:06:26Z) - Mix and Match: An Empirical Study on Training Corpus Composition for
Polyglot Text-To-Speech (TTS) [3.57486761615991]
モノリンガルコーパスのみを用いたマルチリンガルニューラルテキスト音声合成(NTTS)モデルのトレーニングが,音声クローンベースのポリグロットNTTSシステム構築の一般的な方法として登場した。
学習コーパスの構成が多言語音声合成の質にどのように影響するかを理解することが不可欠である。
論文 参考訳(メタデータ) (2022-07-04T15:23:06Z) - BasqueParl: A Bilingual Corpus of Basque Parliamentary Transcriptions [3.4447242282168777]
バスク議会文書から新たに編纂されたコーパスの最初のバージョンをリリースする。
このコーパスはバスク語とスペイン語の重厚なコードスイッチングが特徴であり、バスク語やスペイン語のような対照的な言語で政治的言説を研究するための興味深い資源となっている。
論文 参考訳(メタデータ) (2022-05-03T14:02:24Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。