論文の概要: A New Dataset and Empirical Study for Sentence Simplification in Chinese
- arxiv url: http://arxiv.org/abs/2306.04188v1
- Date: Wed, 7 Jun 2023 06:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 15:59:49.035197
- Title: A New Dataset and Empirical Study for Sentence Simplification in Chinese
- Title(参考訳): 中国語文の簡易化のための新しいデータセットと経験的研究
- Authors: Shiping Yang and Renliang Sun and Xiaojun Wan
- Abstract要約: 本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
- 参考スコア(独自算出の注目度): 50.0624778757462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence Simplification is a valuable technique that can benefit language
learners and children a lot. However, current research focuses more on English
sentence simplification. The development of Chinese sentence simplification is
relatively slow due to the lack of data. To alleviate this limitation, this
paper introduces CSS, a new dataset for assessing sentence simplification in
Chinese. We collect manual simplifications from human annotators and perform
data analysis to show the difference between English and Chinese sentence
simplifications. Furthermore, we test several unsupervised and zero/few-shot
learning methods on CSS and analyze the automatic evaluation and human
evaluation results. In the end, we explore whether Large Language Models can
serve as high-quality Chinese sentence simplification systems by evaluating
them on CSS.
- Abstract(参考訳): 文の単純化は、言語学習者と子供に多くの利益をもたらす貴重なテクニックである。
しかし、現在の研究は英語の文の単純化に重点を置いている。
中国語文の簡易化はデータの欠如により比較的遅い。
この制限を緩和するため,本稿では,中国語文の簡易化を評価するための新しいデータセットcssを紹介する。
人間の注釈者から手作業による簡易化を収集し,英語と中国語の簡易化の違いを示すデータ分析を行う。
さらに,css上での教師なしおよびゼロ/fewショット学習手法をいくつかテストし,自動評価と人間評価結果の分析を行った。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
関連論文リスト
- Difficulty Estimation and Simplification of French Text Using LLMs [1.0568851068989973]
外国語テキストの難易度を推定することに集中して,大規模言語モデルを言語学習アプリケーションに活用する。
本研究では,ラベル付き例,移動学習,および大規模言語モデルを用いた難易度分類モデルを構築し,従来の手法に比べて精度が高いことを示す。
我々の実験はフランス語のテキストで行われているが、我々の手法は言語に依存しず、他の外国語にも直接適用できる。
論文 参考訳(メタデータ) (2024-07-25T14:16:08Z) - MCTS: A Multi-Reference Chinese Text Simplification Dataset [15.080614581458091]
漢文の簡体化に関する研究は、古くからほとんど行われていない。
マルチ参照中国語テキスト単純化データセットであるMCTSを紹介する。
いくつかの教師なし手法と高度な大規模言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-05T11:46:36Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - Elaborative Simplification as Implicit Questions Under Discussion [51.17933943734872]
本稿では,QUD フレームワークのレンズによる共同作業の簡略化について考察する。
本研究は,QUDを明示的にモデル化することで,作業の単純化と,作業内容と作業内容の関連性について,重要な理解が得られていることを示す。
論文 参考訳(メタデータ) (2023-05-17T17:26:16Z) - Sentence Simplification via Large Language Models [15.07021692249856]
文の単純化は、複雑な文を本来の意味を保ちながら、より単純な文に言い換えることを目的としている。
大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する能力を示した。
論文 参考訳(メタデータ) (2023-02-23T12:11:58Z) - Exploiting Summarization Data to Help Text Simplification [50.0624778757462]
テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化を行った。
我々はこれらのペアをSum4Simp (S4S) と命名し,S4Sが高品質であることを示す人間評価を行った。
論文 参考訳(メタデータ) (2023-02-14T15:32:04Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Chinese Lexical Simplification [29.464388721085548]
中国の語彙単純化(CLS)に関する研究は行われていない。
アノテーション取得の難しさを回避するため,我々はCLSの最初のベンチマークデータセットを手作業で作成する。
複雑な単語の代用候補を生成するために,5種類のメソッドをベースラインとして提示する。
論文 参考訳(メタデータ) (2020-10-14T12:55:36Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - MUSS: Multilingual Unsupervised Sentence Simplification by Mining
Paraphrases [20.84836431084352]
ラベル付き単純化データを必要としない多言語無教師文簡略化システムであるMUSSを紹介する。
MUSSは、適切な単純化データではなく、文レベルのパラフレーズデータを使用して強力なモデルを訓練する、文単純化の新しいアプローチを使用している。
我々は、英語、フランス語、スペイン語の単純化ベンチマークに対する我々のアプローチを評価し、以前の最高の教師付き結果と密に一致または比較した。
論文 参考訳(メタデータ) (2020-05-01T12:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。