論文の概要: Chinese Lexical Simplification
- arxiv url: http://arxiv.org/abs/2010.07048v1
- Date: Wed, 14 Oct 2020 12:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 13:18:18.549237
- Title: Chinese Lexical Simplification
- Title(参考訳): 中国の語彙の単純化
- Authors: Jipeng Qiang and Xinyu Lu and Yun Li and Yunhao Yuan and Yang Shi and
Xindong Wu
- Abstract要約: 中国の語彙単純化(CLS)に関する研究は行われていない。
アノテーション取得の難しさを回避するため,我々はCLSの最初のベンチマークデータセットを手作業で作成する。
複雑な単語の代用候補を生成するために,5種類のメソッドをベースラインとして提示する。
- 参考スコア(独自算出の注目度): 29.464388721085548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lexical simplification has attracted much attention in many languages, which
is the process of replacing complex words in a given sentence with simpler
alternatives of equivalent meaning. Although the richness of vocabulary in
Chinese makes the text very difficult to read for children and non-native
speakers, there is no research work for Chinese lexical simplification (CLS)
task. To circumvent difficulties in acquiring annotations, we manually create
the first benchmark dataset for CLS, which can be used for evaluating the
lexical simplification systems automatically. In order to acquire more thorough
comparison, we present five different types of methods as baselines to generate
substitute candidates for the complex word that include synonym-based approach,
word embedding-based approach, pretrained language model-based approach,
sememe-based approach, and a hybrid approach. Finally, we design the
experimental evaluation of these baselines and discuss their advantages and
disadvantages. To our best knowledge, this is the first study for CLS task.
- Abstract(参考訳): 語彙の単純化は多くの言語で注目を集めており、これはある文中の複雑な単語を等価な意味の単純な代替語に置き換える過程である。
中国語の語彙の豊かさは、子供や非母語話者にとって非常に読みにくいが、中国語の語彙単純化(CLS)に関する研究は行われていない。
アノテーション取得の難しさを回避するため,私たちは,語彙単純化システムの自動評価に使用できるCLSの最初のベンチマークデータセットを手作業で作成する。
より詳細な比較を行うために,シノニムベースアプローチ,単語埋め込みベースアプローチ,事前学習型言語モデルベースアプローチ,セメムベースアプローチ,ハイブリッドアプローチなど,複雑な単語の代替候補を生成するためのベースラインとして,5つの異なる手法を提案する。
最後に,これらのベースラインの実験的評価を設計し,その利点と欠点について議論する。
私たちの知る限りでは、これがCLSタスクの最初の研究です。
関連論文リスト
- A Simple yet Effective Training-free Prompt-free Approach to Chinese Spelling Correction Based on Large Language Models [39.35525969831397]
本研究は、中国語スペル訂正(CSC)タスクに大規模言語モデル(LLM)を活用するための、簡単なトレーニングフリーなプロンプトフリーアプローチを提案する。
5つの公開データセットの実験により、我々のアプローチはLLMの性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-10-05T04:06:56Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Multilingual Lexical Simplification via Paraphrase Generation [19.275642346073557]
パラフレーズ生成による新しい多言語LS法を提案する。
パラフレーズ処理は多言語ニューラルマシン翻訳におけるゼロショット翻訳タスクとみなす。
提案手法は,英語,スペイン語,ポルトガル語で,BERT法とゼロショットGPT3法を大きく上回る。
論文 参考訳(メタデータ) (2023-07-28T03:47:44Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - NapSS: Paragraph-level Medical Text Simplification via Narrative
Prompting and Sentence-matching Summarization [46.772517928718216]
そこで我々はNapSSと呼ばれる2段階戦略を提案する。
NapSSは、オリジナルの物語の流れが保存されていることを保証しながら、関連コンテンツを特定し、単純化する。
本モデルは,英語医療コーパスのSeq2seqベースラインよりも有意に優れている。
論文 参考訳(メタデータ) (2023-02-11T02:20:25Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Enhancing Pre-trained Language Model with Lexical Simplification [41.34550924004487]
lexical simplification (ls) は、そのような語彙の多様性を減らすための認識された方法である。
テキスト分類におけるPrLMの性能を効果的に向上する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-30T07:49:00Z) - LSBert: A Simple Framework for Lexical Simplification [32.75631197427934]
本稿では,事前学習した表現モデルBertに基づく語彙単純化フレームワークLSBertを提案する。
本システムでは,文法的に正確かつ意味論的に適切である語彙的単純化を出力する。
論文 参考訳(メタデータ) (2020-06-25T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。