論文の概要: LengClaro2023: A Dataset of Administrative Texts in Spanish with Plain Language adaptations
- arxiv url: http://arxiv.org/abs/2506.05927v1
- Date: Fri, 06 Jun 2025 09:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.409289
- Title: LengClaro2023: A Dataset of Administrative Texts in Spanish with Plain Language adaptations
- Title(参考訳): LengClaro2023: 平易な言語適応を伴うスペイン語における行政文書のデータセット
- Authors: Belén Agüera-Marco, Itziar Gonzalez-Dios,
- Abstract要約: 本稿では,スペイン語における法的行政文書のデータセットであるLengClaro2023を紹介する。
スパニッシュ・ソーシャル・セキュリティのウェブサイトから最も頻繁に使用される手順に基づいて、それぞれのテキストに2つの簡易化された等価テキストを作成しました。
- 参考スコア(独自算出の注目度): 2.0318703477202003
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we present LengClaro2023, a dataset of legal-administrative texts in Spanish. Based on the most frequently used procedures from the Spanish Social Security website, we have created for each text two simplified equivalents. The first version follows the recommendations provided by arText claro. The second version incorporates additional recommendations from plain language guidelines to explore further potential improvements in the system. The linguistic resource created in this work can be used for evaluating automatic text simplification (ATS) systems in Spanish.
- Abstract(参考訳): 本稿では,スペイン語における法的管理テキストのデータセットであるLengClaro2023を紹介する。
スパニッシュ・ソーシャル・セキュリティのウェブサイトから最も頻繁に使用される手順に基づいて、それぞれのテキストに2つの簡易化された等価テキストを作成しました。
最初のバージョンはarText claroが提供するレコメンデーションに従っている。
第2バージョンでは、システムのさらなる改善を検討するために、プレーン言語ガイドラインから追加のレコメンデーションが組み込まれている。
この研究で作成された言語資源は、スペイン語で自動テキスト単純化(ATS)システムを評価するのに利用できる。
関連論文リスト
- A Library for Automatic Natural Language Generation of Spanish Texts [6.102700502396687]
本稿では,スペイン語文の自然言語生成システム(NLG)について,意味のある単語の最小セットから提案する。
システムは、ユーザが提示した主語セットから完全で一貫性があり、正しく綴られた文を生成することができる。
設計によって他の言語に容易に適応でき、広範囲のデジタルデバイスに統合することができる。
論文 参考訳(メタデータ) (2024-05-27T15:44:06Z) - Lexical Complexity Prediction and Lexical Simplification for Catalan and Spanish: Resource Creation, Quality Assessment, and Ethical Considerations [3.8704030295841534]
本稿では,スペイン語とカタルーニャ語における語彙単純化のための2つの新しいデータセットの記述と解析について述べる。
このデータセットは、カタルーニャにおける最初の種であり、自動語彙の単純化に関するスパースデータに実質的な追加である。
論文 参考訳(メタデータ) (2024-04-11T14:57:19Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - A Novel Dataset for Financial Education Text Simplification in Spanish [4.475176409401273]
スペイン語では、テキスト単純化システムを作成するために使用できるデータセットはほとんどない。
我々は、確立された単純化規則を用いて、5,314の複雑で単純化された文対からなるデータセットを作成しました。
論文 参考訳(メタデータ) (2023-12-15T15:47:08Z) - A User-Centered Evaluation of Spanish Text Simplification [6.046875672600245]
生産システムにおけるスペイン語のテキスト単純化(TS)の評価について述べる。
我々は、スペイン固有の可読性スコアをニューラルネットワークと比較し、後者がTSに関するユーザの好みを予測するのに一貫して優れていることを示す。
我々は,スペインの自然言語処理の最先端を推し進めることを目指して,我々の評価のコーパスを広いコミュニティに公開する。
論文 参考訳(メタデータ) (2023-08-15T03:49:59Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - Lexical Simplification Benchmarks for English, Portuguese, and Spanish [23.90236014260585]
英語,スペイン語,(ブラジル語)ポルトガル語の語彙単純化のための新しいベンチマークデータセットを提案する。
これは3つの言語の語彙的単純化システムを直接比較した最初のデータセットである。
最先端の神経語彙単純化システムは,3言語すべてで最先端の非神経語彙単純化システムより優れていた。
論文 参考訳(メタデータ) (2022-09-12T15:06:26Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。