論文の概要: Towards Arabic Sentence Simplification via Classification and Generative
Approaches
- arxiv url: http://arxiv.org/abs/2204.09292v1
- Date: Wed, 20 Apr 2022 08:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 22:17:17.764066
- Title: Towards Arabic Sentence Simplification via Classification and Generative
Approaches
- Title(参考訳): 分類と生成的アプローチによるアラビア語文の簡易化に向けて
- Authors: Nouran Khallaf, Serge Sharoff
- Abstract要約: 本稿では,現代標準アラビア語(MSA)文レベルの簡略化システムの構築を試みる。
文の簡易化には, (i) アラビア語-BERT, 事前学習した文脈モデル, 高速テキスト単語埋め込みのモデル, (ii) 多言語テキスト・テキスト・トランスフォーマーmT5を適用したSeq2Seq手法の2つの手法を用いた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an attempt to build a Modern Standard Arabic (MSA)
sentence-level simplification system. We experimented with sentence
simplification using two approaches: (i) a classification approach leading to
lexical simplification pipelines which use Arabic-BERT, a pre-trained
contextualised model, as well as a model of fastText word embeddings; and (ii)
a generative approach, a Seq2Seq technique by applying a multilingual
Text-to-Text Transfer Transformer mT5. We developed our training corpus by
aligning the original and simplified sentences from the internationally
acclaimed Arabic novel "Saaq al-Bambuu". We evaluate effectiveness of these
methods by comparing the generated simple sentences to the target simple
sentences using the BERTScore evaluation metric. The simple sentences produced
by the mT5 model achieve P 0.72, R 0.68 and F-1 0.70 via BERTScore, while,
combining Arabic-BERT and fastText achieves P 0.97, R 0.97 and F-1 0.97. In
addition, we report a manual error analysis for these experiments.
\url{https://github.com/Nouran-Khallaf/Lexical_Simplification}
- Abstract(参考訳): 本稿では,現代標準アラビア語(MSA)文レベルの簡略化システムの構築を試みる。
文の単純化を2つのアプローチで実験した。
(i)事前学習された文脈化モデルであるアラビア語-bertと、ファストテキスト単語埋め込みのモデルを用いる語彙単純化パイプラインに至る分類アプローチ
(II)多言語テキスト・テキスト転送変換器mT5を適用したSeq2Seq手法
我々は、国際的に賞賛されたアラビア語の小説「Saaq al-Bambuu」の原文と簡略な文を合わせることで、トレーニングコーパスを開発した。
BERTScore評価尺度を用いて,生成した単純文と目的単純文とを比較し,これらの手法の有効性を評価する。
mT5モデルによって生成される単純な文は、BERTScoreを介してP 0.72、R 0.68、F-1 0.70を得る一方、アラビア語-BERTとfastTextを組み合わせてP 0.97、R 0.97、F-1 0.97を得る。
また,これらの実験について手動による誤り解析を行った。
\url{https://github.com/Nouran-Khallaf/Lexical_Simplification}
関連論文リスト
- A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - SimpLex: a lexical text simplification architecture [0.5156484100374059]
簡単な英文を生成するための新しい単純化アーキテクチャである textscSimpLex を提案する。
提案アーキテクチャでは、ワード埋め込み(Word2Vec)とパープレキシティ(perplexity)、文変換(BERT、RoBERTa、GPT2)、コサイン類似(cosine similarity)のいずれかを使用する。
このソリューションはユーザフレンドリーで使いやすいソフトウェアに組み込まれている。
論文 参考訳(メタデータ) (2023-04-14T08:52:31Z) - NapSS: Paragraph-level Medical Text Simplification via Narrative
Prompting and Sentence-matching Summarization [46.772517928718216]
そこで我々はNapSSと呼ばれる2段階戦略を提案する。
NapSSは、オリジナルの物語の流れが保存されていることを保証しながら、関連コンテンツを特定し、単純化する。
本モデルは,英語医療コーパスのSeq2seqベースラインよりも有意に優れている。
論文 参考訳(メタデータ) (2023-02-11T02:20:25Z) - Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。
同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文 参考訳(メタデータ) (2022-05-15T12:58:35Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - Automatic Difficulty Classification of Arabic Sentences [0.0]
3方向cefr分類の精度はアラビア語-bert分類では0.80, xlm-r分類では0.75, 回帰では0.71スピアマン相関である。
我々は,異なる種類の文埋め込み(fastText, mBERT, XLM-R, Arabic-BERT)とPOSタグ, 依存性木, 可読性スコア, 言語学習者の頻度リストなど,従来の言語機能との比較を行った。
論文 参考訳(メタデータ) (2021-03-07T16:02:04Z) - Hopeful_Men@LT-EDI-EACL2021: Hope Speech Detection Using Indic
Transliteration and Transformers [6.955778726800376]
本稿では,HopeEDIデータセットにおける希望の発話検出に用いたアプローチについて述べる。
最初のアプローチでは、ロジスティック回帰、ランダムフォレスト、SVM、LSTMベースのモデルを用いて、文脈埋め込みを用いて分類器を訓練した。
第2のアプローチは、事前訓練済みトランスモデルの微調整によって得られた11モデルの過半数投票アンサンブルを使用することであった。
論文 参考訳(メタデータ) (2021-02-24T06:01:32Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - Neural CRF Model for Sentence Alignment in Text Simplification [31.62648025127563]
我々は、通常使われている2つのテキスト単純化コーパス、Newsela、Wikipediaから、手動で注釈付き文整列データセットを作成する。
実験により, 提案手法はF1の5点以上の単言語文アライメントタスクにおいて, これまでの作業よりも優れていたことがわかった。
データセットに基づいてトレーニングされたTransformerベースのseq2seqモデルは、自動評価と人的評価の両方において、テキストの簡略化のための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2020-05-05T16:47:51Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。