論文の概要: Readability-guided Idiom-aware Sentence Simplification (RISS) for Chinese
- arxiv url: http://arxiv.org/abs/2406.02974v1
- Date: Wed, 5 Jun 2024 06:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 19:49:25.093266
- Title: Readability-guided Idiom-aware Sentence Simplification (RISS) for Chinese
- Title(参考訳): 中国語における読みやすさ誘導Idiom-Aware Simplification (RISS)
- Authors: Jingshen Zhang, Xinglu Chen, Xinying Qiu, Zhimin Wang, Wenhe Feng,
- Abstract要約: 本稿では,データ拡張技術と語彙単純化を組み合わせた新しいフレームワークRISSを提案する。
RISSは,(1)高品質な文ペアをマイニングするRPS (Readability-Guided Paraphrase Selection) と(2)認識単純化 (Aware Simplification) という,慣用的な表現の理解と単純化を促進するモデルを導入する。
- 参考スコア(独自算出の注目度): 1.1650821883155187
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Chinese sentence simplification faces challenges due to the lack of large-scale labeled parallel corpora and the prevalence of idioms. To address these challenges, we propose Readability-guided Idiom-aware Sentence Simplification (RISS), a novel framework that combines data augmentation techniques with lexcial simplification. RISS introduces two key components: (1) Readability-guided Paraphrase Selection (RPS), a method for mining high-quality sentence pairs, and (2) Idiom-aware Simplification (IAS), a model that enhances the comprehension and simplification of idiomatic expressions. By integrating RPS and IAS using multi-stage and multi-task learning strategies, RISS outperforms previous state-of-the-art methods on two Chinese sentence simplification datasets. Furthermore, RISS achieves additional improvements when fine-tuned on a small labeled dataset. Our approach demonstrates the potential for more effective and accessible Chinese text simplification.
- Abstract(参考訳): 中国語の文の単純化は、大規模にラベル付けされたパラレルコーパスの欠如とイディオムの流行によって困難に直面している。
これらの課題に対処するために、データ拡張技術と語彙単純化を組み合わせた新しいフレームワークである、可読性を考慮したIdiom-aware Simplification (RISS)を提案する。
RISSは,(1)高品質な文ペアをマイニングするRPS(Readability-Guided Paraphrase Selection)と,(2)慣用的表現の理解と単純化を促進するモデルであるIAS(Idiom-aware Simplification)の2つの重要なコンポーネントを導入している。
マルチステージとマルチタスクの学習戦略を用いてRSSとIASを統合することで、RISSは2つの中国語文単純化データセットにおいて、従来の最先端の手法よりも優れています。
さらに、RISSは小さなラベル付きデータセットを微調整することで、さらなる改善を実現している。
我々のアプローチは、より効果的でアクセスしやすい中国語のテキストの単純化の可能性を示している。
関連論文リスト
- ARTIST: ARTificial Intelligence for Simplified Text [5.095775294664102]
テキスト単純化は、テキストの言語的複雑さを減らすことを目的とした、自然言語処理の重要なタスクである。
生成人工知能(AI)の最近の進歩により、語彙レベルと構文レベルの両方で自動テキストの簡略化が可能になった。
論文 参考訳(メタデータ) (2023-08-25T16:06:06Z) - Master-ASR: Achieving Multilingual Scalability and Low-Resource
Adaptation in ASR with Modular Learning [28.592569051244375]
METHODNSは、強力な多言語スケーラビリティと低リソース適応性を同時に実現している。
我々のフレームワークは、最先端(SOTA)メソッドよりも30%少ない推論オーバーヘッドで、0.13$sim$2.41低い文字誤り率(CER)を達成する。
論文 参考訳(メタデータ) (2023-06-23T16:23:00Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - Elaborative Simplification as Implicit Questions Under Discussion [51.17933943734872]
本稿では,QUD フレームワークのレンズによる共同作業の簡略化について考察する。
本研究は,QUDを明示的にモデル化することで,作業の単純化と,作業内容と作業内容の関連性について,重要な理解が得られていることを示す。
論文 参考訳(メタデータ) (2023-05-17T17:26:16Z) - Exploiting Summarization Data to Help Text Simplification [50.0624778757462]
テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化を行った。
我々はこれらのペアをSum4Simp (S4S) と命名し,S4Sが高品質であることを示す人間評価を行った。
論文 参考訳(メタデータ) (2023-02-14T15:32:04Z) - Noisy Channel for Automatic Text Simplification [6.657920111793577]
本稿では,ノイズチャネル方式に基づく簡易な自動文合成手法を提案する。
実験の結果,これらのスコアの組み合わせは,3つの異なる英語データセットにおいて,元のシステムよりも優れていた。
論文 参考訳(メタデータ) (2022-11-06T15:28:42Z) - Automatic Lexical Simplification for Turkish [0.0]
トルコ語に対する最初の自動語彙単純化システムを提案する。
近年のテキスト単純化の取り組みは、手作業による簡易コーパスと包括的NLPツールに依存している。
本稿では,事前学習された表現モデル BERT に基づく新しいテキスト単純化パイプラインと形態的特徴を併用して,文法的に正しい意味論的に適切な単語レベルの単純化を生成する。
論文 参考訳(メタデータ) (2022-01-15T15:58:44Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Controllable Text Simplification with Explicit Paraphrasing [88.02804405275785]
テキストの単純化は、語彙パラフレーズ、削除、分割など、いくつかの書き換え変換を通じて文の可読性を向上させる。
現在の単純化システムは、主にシーケンス・ツー・シーケンスのモデルであり、これらすべての操作を同時に実行するためにエンドツーエンドで訓練されている。
そこで我々は,言語的に動機づけられた規則を用いて分割と削除を行い,それらをニューラルパラフレーズモデルと組み合わせて様々な書き直しスタイルを創出するハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T13:44:40Z) - Chinese Lexical Simplification [29.464388721085548]
中国の語彙単純化(CLS)に関する研究は行われていない。
アノテーション取得の難しさを回避するため,我々はCLSの最初のベンチマークデータセットを手作業で作成する。
複雑な単語の代用候補を生成するために,5種類のメソッドをベースラインとして提示する。
論文 参考訳(メタデータ) (2020-10-14T12:55:36Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。