論文の概要: Automatic Lexical Simplification for Turkish
- arxiv url: http://arxiv.org/abs/2201.05878v3
- Date: Fri, 28 Jul 2023 13:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 17:01:06.147733
- Title: Automatic Lexical Simplification for Turkish
- Title(参考訳): トルコ語の自動辞書化
- Authors: Ahmet Yavuz Uluslu
- Abstract要約: トルコ語に対する最初の自動語彙単純化システムを提案する。
近年のテキスト単純化の取り組みは、手作業による簡易コーパスと包括的NLPツールに依存している。
本稿では,事前学習された表現モデル BERT に基づく新しいテキスト単純化パイプラインと形態的特徴を併用して,文法的に正しい意味論的に適切な単語レベルの単純化を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the first automatic lexical simplification system
for the Turkish language. Recent text simplification efforts rely on manually
crafted simplified corpora and comprehensive NLP tools that can analyse the
target text both in word and sentence levels. Turkish is a morphologically rich
agglutinative language that requires unique considerations such as the proper
handling of inflectional cases. Being a low-resource language in terms of
available resources and industrial-strength tools, it makes the text
simplification task harder to approach. We present a new text simplification
pipeline based on pretrained representation model BERT together with
morphological features to generate grammatically correct and semantically
appropriate word-level simplifications.
- Abstract(参考訳): 本稿では,トルコ語における最初の語彙合成システムについて述べる。
最近のテキスト単純化の取り組みは、手作業による簡易コーパスと、対象テキストを単語レベルと文レベルの両方で分析できる包括的なnlpツールに依存している。
トルコ語は形態学的に豊かな凝集言語であり、屈折事件の適切な処理など独自の考察を必要とする。
利用可能なリソースと工業的強化ツールの観点からは、低リソース言語であるため、テキストの簡易化が難しくなる。
本稿では,事前学習された表現モデル BERT に基づく新しいテキスト単純化パイプラインと形態的特徴を併用して,文法的に正しい意味論的に適切な単語レベルの単純化を生成する。
関連論文リスト
- ARTIST: ARTificial Intelligence for Simplified Text [5.095775294664102]
テキスト単純化は、テキストの言語的複雑さを減らすことを目的とした、自然言語処理の重要なタスクである。
生成人工知能(AI)の最近の進歩により、語彙レベルと構文レベルの両方で自動テキストの簡略化が可能になった。
論文 参考訳(メタデータ) (2023-08-25T16:06:06Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - Exploring Hybrid Linguistic Features for Turkish Text Readability [0.0]
本稿では,トルコ語テキストの自動可読性評価に関する最初の総合的研究について述べる。
我々は、最先端の可読性ツールを開発するために、最先端のニューラルネットワークモデルと語彙、モルフォシンタクティック、構文、談話レベルの言語的特徴を組み合わせる。
論文 参考訳(メタデータ) (2023-06-06T15:32:22Z) - Teaching the Pre-trained Model to Generate Simple Texts for Text
Simplification [59.625179404482594]
トレーニング前の段階では、ランダムなマスキングテキストが通常のテキストに分散しているため、モデルは単純なテキストを生成する能力を得ることができない。
簡単なテキストを生成するための事前学習モデルを学習するための,新たな事前学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-21T14:03:49Z) - Elaborative Simplification as Implicit Questions Under Discussion [51.17933943734872]
本稿では,QUD フレームワークのレンズによる共同作業の簡略化について考察する。
本研究は,QUDを明示的にモデル化することで,作業の単純化と,作業内容と作業内容の関連性について,重要な理解が得られていることを示す。
論文 参考訳(メタデータ) (2023-05-17T17:26:16Z) - Unsupervised Sentence Simplification via Dependency Parsing [4.337513096197002]
本稿では,単純だが教師なしの文簡略化システムを提案する。
構文解析と文の埋め込みを利用して言語学的に効果的な単純化を生成する。
我々は、テュルクコルプスの39.13 SARIにおいて、教師なしの最先端を定め、様々な品質指標の教師なしベースラインに対して競争的に行動する。
論文 参考訳(メタデータ) (2022-06-10T07:55:25Z) - SimpleBERT: A Pre-trained Model That Learns to Generate Simple Words [59.142185753887645]
本研究では,テキストの簡易化を継続する事前学習手法を提案する。
我々は、継続事前学習に小規模な単純なテキストデータセットを使用し、簡単な単語を識別するために2つの方法を用いる。
語彙単純化タスクと文簡略化タスクの両方においてBERTを超えるSimpleBERTを得る。
論文 参考訳(メタデータ) (2022-04-16T11:28:01Z) - Controllable Text Simplification with Explicit Paraphrasing [88.02804405275785]
テキストの単純化は、語彙パラフレーズ、削除、分割など、いくつかの書き換え変換を通じて文の可読性を向上させる。
現在の単純化システムは、主にシーケンス・ツー・シーケンスのモデルであり、これらすべての操作を同時に実行するためにエンドツーエンドで訓練されている。
そこで我々は,言語的に動機づけられた規則を用いて分割と削除を行い,それらをニューラルパラフレーズモデルと組み合わせて様々な書き直しスタイルを創出するハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T13:44:40Z) - Elaborative Simplification: Content Addition and Explanation Generation
in Text Simplification [33.08519864889526]
テキスト単純化におけるコンテンツ追加に関する最初のデータ駆動型研究について述べる。
我々は、文脈的特異性のレンズを通して、エンティティ、アイデア、概念がどのように精巧化されているかを分析する。
本研究は, 作業の複雑さを概説し, 今後の課題について多くの興味深い方向性を示唆するものである。
論文 参考訳(メタデータ) (2020-10-20T05:06:23Z) - Chinese Lexical Simplification [29.464388721085548]
中国の語彙単純化(CLS)に関する研究は行われていない。
アノテーション取得の難しさを回避するため,我々はCLSの最初のベンチマークデータセットを手作業で作成する。
複雑な単語の代用候補を生成するために,5種類のメソッドをベースラインとして提示する。
論文 参考訳(メタデータ) (2020-10-14T12:55:36Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。