論文の概要: Chinese Idiom Paraphrasing
- arxiv url: http://arxiv.org/abs/2204.07555v1
- Date: Fri, 15 Apr 2022 17:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 15:51:38.130911
- Title: Chinese Idiom Paraphrasing
- Title(参考訳): 中国語のイディオムパラフレーズ
- Authors: Jipeng Qiang, Yang Li, Chaowei Zhang, Yun Li, Yunhao Yuan, Yi Zhu,
Xindong Wu
- Abstract要約: 中国語の慣用句は、子供や非母語話者によって理解されがちである。
本研究では,中国語パラフレージング(CIP)と呼ばれる新しい課題を提案する。
CIPは、原文の意味を保存するという前提のもと、イディオム-文を非慣用句に言い換えることを目的としている。
- 参考スコア(独自算出の注目度): 33.585450600066395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Idioms, are a kind of idiomatic expression in Chinese, most of which consist
of four Chinese characters. Due to the properties of non-compositionality and
metaphorical meaning, Chinese Idioms are hard to be understood by children and
non-native speakers. This study proposes a novel task, denoted as Chinese Idiom
Paraphrasing (CIP). CIP aims to rephrase idioms-included sentences to
non-idiomatic ones under the premise of preserving the original sentence's
meaning. Since the sentences without idioms are easier handled by Chinese NLP
systems, CIP can be used to pre-process Chinese datasets, thereby facilitating
and improving the performance of Chinese NLP tasks, e.g., machine translation
system, Chinese idiom cloze, and Chinese idiom embeddings. In this study, CIP
task is treated as a special paraphrase generation task. To circumvent
difficulties in acquiring annotations, we first establish a large-scale CIP
dataset based on human and machine collaboration, which consists of 115,530
sentence pairs. We further deploy three baselines and two novel CIP approaches
to deal with CIP problems. The results show that the proposed methods have
better performances than the baselines based on the established CIP dataset.
- Abstract(参考訳): イディオム(英: idioms)は、中国語の慣用表現の一種で、ほとんどが4つの漢字からなる。
非構成性や比喩的意味の性質から、中国語のイディオムは子供や非母語話者によって理解されにくい。
本研究は,中国語Idiom Paraphrasing (CIP) と呼ばれる新しい課題を提案する。
CIPは、原文の意味を保存するという前提のもと、イディオムを含む文を非慣用句に言い換えることを目的としている。
慣用句のない文は中国語のNLPシステムで処理しやすいため、CIPは中国語のデータセットを前処理し、機械翻訳システム、中国語のidiom cloze、中国語のidiom Embeddingsなどの中国語のNLPタスクの実行を容易に改善することができる。
本研究では,CIPタスクを特別なフレーズ生成タスクとして扱う。
アノテーション取得の難しさを回避するため,まず115,530対の文対からなる人間と機械の協調に基づく大規模CIPデータセットを構築した。
さらに、CIP問題に対処するために、3つのベースラインと2つの新しいCIPアプローチを展開します。
その結果,提案手法は確立したCIPデータセットに基づくベースラインよりも優れた性能を示した。
関連論文リスト
- Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Discourse Representation Structure Parsing for Chinese [8.846860617823005]
本研究では,中国語意味表現のためのラベル付きデータがない場合の中国語意味解析の実現可能性について検討する。
そこで本研究では,中国語意味解析のためのテストスイートを提案し,解析性能の詳細な評価を行う。
実験の結果,中国語の意味解析の難易度は,主に副詞が原因であることが示唆された。
論文 参考訳(メタデータ) (2023-06-16T09:47:45Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Joint Chinese Word Segmentation and Span-based Constituency Parsing [11.080040070201608]
本研究は,中国語の単語セグメント化とSpanに基づくコンストラクタシーパーシングを共同で行う手法を提案する。
実験により,提案アルゴリズムは, CTB 5.1上での関節分割と補間のための最近のモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:19:00Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - MVP-BERT: Redesigning Vocabularies for Chinese BERT and Multi-Vocab
Pretraining [5.503321733964237]
まず,中国語単語セグメンテーション(CWS)とサブワードトークン化の助けを借りて,中国語BERTの語彙を形成する新しい手法であるemphseg_tokを提案する。
実験の結果,emphseg_tok は中国語 PLM の文レベルタスクの性能を向上するだけでなく,効率も向上することが示された。
論文 参考訳(メタデータ) (2020-11-17T10:15:36Z) - Chinese Lexical Simplification [29.464388721085548]
中国の語彙単純化(CLS)に関する研究は行われていない。
アノテーション取得の難しさを回避するため,我々はCLSの最初のベンチマークデータセットを手作業で作成する。
複雑な単語の代用候補を生成するために,5種類のメソッドをベースラインとして提示する。
論文 参考訳(メタデータ) (2020-10-14T12:55:36Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。