論文の概要: OasisSimp: An Open-source Asian-English Sentence Simplification Dataset
- arxiv url: http://arxiv.org/abs/2603.14111v1
- Date: Sat, 14 Mar 2026 20:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.60796
- Title: OasisSimp: An Open-source Asian-English Sentence Simplification Dataset
- Title(参考訳): OasisSimp: オープンソースのアジア英語文の単純化データセット
- Authors: Hannah Liu, Muxin Tian, Iqra Ali, Haonan Gao, Qiaoyiwen Wu, Blair Yang, Uthayasanker Thayasivam, En-Shiun Annie Lee, Pakawat Nakwijit, Surangika Ranathunga, Ravi Shekhar,
- Abstract要約: OasisSimpは、英語、シンハラ語、タミル語、パシュト語、タイ語で文レベルの単純化のためのデータセットである。
タイ、パシュト、タミルでは以前のデータセットは存在せず、シンハラでは限られたデータしか利用できない。
我々は,OasisSimpデータセットを用いて,オープンウェイトな多言語大言語モデル(LLM)を8つ評価した。
- 参考スコア(独自算出の注目度): 5.807655514613053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentence simplification aims to make complex text more accessible by reducing linguistic complexity while preserving the original meaning. However, progress in this area remains limited for mid-resource and low-resource languages due to the scarcity of high-quality data. To address this gap, we introduce the OasisSimp dataset, a multilingual dataset for sentence-level simplification covering five languages: English, Sinhala, Tamil, Pashto, and Thai. Among these, no prior sentence simplification datasets exist for Thai, Pashto, and Tamil, while limited data is available for Sinhala. Each language simplification dataset was created by trained annotators who followed detailed guidelines to simplify sentences while maintaining meaning, fluency, and grammatical correctness. We evaluate eight open-weight multilingual Large Language Models (LLMs) on the OasisSimp dataset and observe substantial performance disparities between high-resource and low-resource languages, highlighting the simplification challenges in multilingual settings. The OasisSimp dataset thus provides both a valuable multilingual resource and a challenging benchmark, revealing the limitations of current LLM-based simplification methods and paving the way for future research in low-resource sentence simplification. The dataset is available at https://OasisSimpDataset.github.io/.
- Abstract(参考訳): 文の単純化は、本来の意味を保ちながら、言語的な複雑さを減らし、複雑なテキストをより使いやすくすることを目的としている。
しかし、この領域の進歩は、高品質なデータが不足しているため、中級および低レベルの言語に限られている。
このギャップに対処するために,英語,シンハラ語,タミル語,パシュト語,タイ語という5つの言語をカバーする,文レベルの単純化のための多言語データセットであるOasisSimpデータセットを紹介した。
これらのうち、タイ語、パシュト語、タミル語では前文の単純化データセットは存在せず、シンハラ語では限られたデータが利用できる。
各言語の単純化データセットは、意味、流布、文法的正当性を保ちながら文を単純化するための詳細なガイドラインに従う訓練された注釈者によって作成された。
我々は,OasisSimpデータセット上で8つのオープンウェイトな多言語大言語モデル(LLM)を評価し,多言語設定における単純化課題を強調した。
したがって、OasisSimpデータセットは、価値ある多言語リソースと挑戦的なベンチマークの両方を提供し、現在のLLMベースの単純化手法の限界を明らかにし、低リソースの文単純化における将来の研究の道を開く。
データセットはhttps://OasisSimpDataset.github.io/で公開されている。
関連論文リスト
- Bridging Language Gaps: Enhancing Few-Shot Language Adaptation [32.157041759856]
言語資源の格差は、多言語NLPにおける課題となっている。
高リソース言語は広範なデータから恩恵を受ける一方、低リソース言語は効果的なトレーニングに十分なデータを持っていない。
我々のContrastive Language Alignment with Prompting (CoLAP) 法は、コントラスト学習と言語間表現を統合することで、このギャップに対処する。
論文 参考訳(メタデータ) (2025-08-26T22:49:17Z) - End-to-End Speech Translation for Low-Resource Languages Using Weakly Labeled Data [5.950263765640278]
本稿では、弱いラベル付きデータを用いて音声からテキストへの翻訳モデルを構築することができるという仮説を考察する。
我々は、最先端の文エンコーダを用いて、Bitextマイニングの助けを借りてデータセットを構築した。
以上の結果から,STシステムはマルチモーダルな多言語ベースラインに匹敵する性能を持つ弱いラベル付きデータで構築可能であることが示された。
論文 参考訳(メタデータ) (2025-06-19T12:11:01Z) - SiTSE: Sinhala Text Simplification Dataset and Evaluation [1.7806363928929385]
本稿では,Sinhala言語に対する人文レベルのテキスト単純化データセットを提案する。
我々は,テキスト単純化タスクを多言語言語モデルmT5とmBARTのゼロショットおよびゼロリソースシーケンス・ツー・シーケンス(seq-seq)タスクとしてモデル化する。
分析の結果,ITTL は以前提案したゼロリソース法よりもテキストの単純化に優れていた。
論文 参考訳(メタデータ) (2024-12-02T09:08:06Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。