論文の概要: A Novel Dataset for Financial Education Text Simplification in Spanish
- arxiv url: http://arxiv.org/abs/2312.09897v1
- Date: Fri, 15 Dec 2023 15:47:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 15:05:46.343417
- Title: A Novel Dataset for Financial Education Text Simplification in Spanish
- Title(参考訳): スペイン語の金融教育テキスト簡素化のための新しいデータセット
- Authors: Nelson Perez-Rojas, Saul Calderon-Ramirez, Martin Solis-Salazar, Mario
Romero-Sandoval, Monica Arias-Monge, Horacio Saggion
- Abstract要約: スペイン語では、テキスト単純化システムを作成するために使用できるデータセットはほとんどない。
我々は、確立された単純化規則を用いて、5,314の複雑で単純化された文対からなるデータセットを作成しました。
- 参考スコア(独自算出の注目度): 4.475176409401273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text simplification, crucial in natural language processing, aims to make
texts more comprehensible, particularly for specific groups like visually
impaired Spanish speakers, a less-represented language in this field. In
Spanish, there are few datasets that can be used to create text simplification
systems. Our research has the primary objective to develop a Spanish financial
text simplification dataset. We created a dataset with 5,314 complex and
simplified sentence pairs using established simplification rules. We also
compared our dataset with the simplifications generated from GPT-3, Tuner, and
MT5, in order to evaluate the feasibility of data augmentation using these
systems. In this manuscript we present the characteristics of our dataset and
the findings of the comparisons with other systems. The dataset is available at
Hugging face, saul1917/FEINA.
- Abstract(参考訳): 自然言語処理において重要なテキスト単純化は、特に視覚障害者のスペイン語話者のような特定のグループにとって、テキストをより理解しやすくすることを目的としている。
スペイン語では、テキスト単純化システムの作成に使用できるデータセットは少ない。
私たちの研究は、スペインの金融テキスト簡易化データセットの開発を主な目的としています。
確立された単純化ルールを用いて、5,314の複雑な文ペアを持つデータセットを作成した。
また, GPT-3, Tuner, MT5から生成されたデータ拡張性を評価するため, データセットと簡易化を比較した。
本論文では、データセットの特徴と、他のシステムとの比較結果について述べる。
データセットはHugging face, saul1917/FEINAで利用可能である。
関連論文リスト
- MultiLS-SP/CA: Lexical Complexity Prediction and Lexical Simplification Resources for Catalan and Spanish [3.8704030295841534]
本稿では,スペイン語とカタルーニャ語における語彙単純化のための新しいデータセットであるMultiLS-SP/CAを提案する。
このデータセットは、カタルーニャにおける最初の種であり、自動語彙の単純化に関するスパースデータに実質的な追加である。
論文 参考訳(メタデータ) (2024-04-11T14:57:19Z) - German Text Simplification: Finetuning Large Language Models with
Semi-Synthetic Data [0.7059555559002345]
本研究は,ドイツ語テキストの文書レベルの簡易化において,合成生成データを用いて生成モデルを訓練する手法である。
このデータに最大13億のパラメータを持つ大規模言語モデルを精査し、その性能を評価します。
論文 参考訳(メタデータ) (2024-02-16T13:28:44Z) - A Benchmark for Text Expansion: Datasets, Metrics, and Baselines [87.47745669317894]
本研究はテキスト拡張(TE)の新たな課題として,平文の適切な位置に細粒度修飾子を挿入することを目的とする。
補完的な4つのアプローチを活用して、1200万の自動生成インスタンスと2Kの人間注釈付き参照を持つデータセットを構築します。
事前訓練されたテキストインフィルモデルの上にパイプラインと共同でLocate&Infillモデルを構築し、Text2Textベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T07:54:38Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - MCTS: A Multi-Reference Chinese Text Simplification Dataset [15.080614581458091]
漢文の簡体化に関する研究は、古くからほとんど行われていない。
マルチ参照中国語テキスト単純化データセットであるMCTSを紹介する。
いくつかの教師なし手法と高度な大規模言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-05T11:46:36Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - Exploiting Summarization Data to Help Text Simplification [50.0624778757462]
テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化を行った。
我々はこれらのペアをSum4Simp (S4S) と命名し,S4Sが高品質であることを示す人間評価を行った。
論文 参考訳(メタデータ) (2023-02-14T15:32:04Z) - Lexical Simplification Benchmarks for English, Portuguese, and Spanish [23.90236014260585]
英語,スペイン語,(ブラジル語)ポルトガル語の語彙単純化のための新しいベンチマークデータセットを提案する。
これは3つの言語の語彙的単純化システムを直接比較した最初のデータセットである。
最先端の神経語彙単純化システムは,3言語すべてで最先端の非神経語彙単純化システムより優れていた。
論文 参考訳(メタデータ) (2022-09-12T15:06:26Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。