論文の概要: SiTSE: Sinhala Text Simplification Dataset and Evaluation
- arxiv url: http://arxiv.org/abs/2412.01293v1
- Date: Mon, 02 Dec 2024 09:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:59.674369
- Title: SiTSE: Sinhala Text Simplification Dataset and Evaluation
- Title(参考訳): SiTSE: Sinhala Text Simplification Datasetと評価
- Authors: Surangika Ranathunga, Rumesh Sirithunga, Himashi Rathnayake, Lahiru De Silva, Thamindu Aluthwala, Saman Peramuna, Ravi Shekhar,
- Abstract要約: 本稿では,Sinhala言語に対する人文レベルのテキスト単純化データセットを提案する。
我々は,テキスト単純化タスクを多言語言語モデルmT5とmBARTのゼロショットおよびゼロリソースシーケンス・ツー・シーケンス(seq-seq)タスクとしてモデル化する。
分析の結果,ITTL は以前提案したゼロリソース法よりもテキストの単純化に優れていた。
- 参考スコア(独自算出の注目度): 1.7806363928929385
- License:
- Abstract: Text Simplification is a task that has been minimally explored for low-resource languages. Consequently, there are only a few manually curated datasets. In this paper, we present a human curated sentence-level text simplification dataset for the Sinhala language. Our evaluation dataset contains 1,000 complex sentences and corresponding 3,000 simplified sentences produced by three different human annotators. We model the text simplification task as a zero-shot and zero resource sequence-to-sequence (seq-seq) task on the multilingual language models mT5 and mBART. We exploit auxiliary data from related seq-seq tasks and explore the possibility of using intermediate task transfer learning (ITTL). Our analysis shows that ITTL outperforms the previously proposed zero-resource methods for text simplification. Our findings also highlight the challenges in evaluating text simplification systems, and support the calls for improved metrics for measuring the quality of automated text simplification systems that would suit low-resource languages as well. Our code and data are publicly available: https://github.com/brainsharks-fyp17/Sinhala-Text-Simplification-Dataset-and-Evaluation
- Abstract(参考訳): テキスト単純化は低リソース言語で最小限に検討されたタスクである。
その結果、手動でキュレートされたデータセットはわずかである。
本稿では,Sinhala言語のための人文レベルのテキスト単純化データセットを提案する。
評価データセットは,1,000の複雑な文と,3つの異なるアノテータが生成する3,000の簡易文を含む。
我々は,テキスト単純化タスクを,多言語言語モデルmT5とmBARTのゼロショットおよびゼロリソースシーケンス・ツー・シーケンス(seq-seq)タスクとしてモデル化する。
我々は、関連するSeq-seqタスクからの補助的データを活用し、中間的タスク伝達学習(ITTL)の可能性を探る。
分析の結果,ITTL は以前提案したゼロリソース法よりもテキストの単純化に優れていた。
また,テキスト簡易化システム評価の課題も強調するとともに,低リソース言語に適合する自動テキスト簡易化システムの品質測定のための指標改善の呼びかけも支援した。
https://github.com/brainsharks-fyp17/Sinhala-Text-Simplification-Dataset-and-Evaluation
関連論文リスト
- Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - A Novel Dataset for Financial Education Text Simplification in Spanish [4.475176409401273]
スペイン語では、テキスト単純化システムを作成するために使用できるデータセットはほとんどない。
我々は、確立された単純化規則を用いて、5,314の複雑で単純化された文対からなるデータセットを作成しました。
論文 参考訳(メタデータ) (2023-12-15T15:47:08Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - MCTS: A Multi-Reference Chinese Text Simplification Dataset [15.080614581458091]
漢文の簡体化に関する研究は、古くからほとんど行われていない。
マルチ参照中国語テキスト単純化データセットであるMCTSを紹介する。
いくつかの教師なし手法と高度な大規模言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-05T11:46:36Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Zero-Shot Information Extraction as a Unified Text-to-Triple Translation [56.01830747416606]
我々は、テキストから3つの翻訳フレームワークに一連の情報抽出タスクを投入した。
タスク固有の入力テキストと出力トリプルの変換としてタスクを形式化する。
本稿では,オープン情報抽出におけるゼロショット性能について検討する。
論文 参考訳(メタデータ) (2021-09-23T06:54:19Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。