論文の概要: Syntactic Complexity Identification, Measurement, and Reduction Through
Controlled Syntactic Simplification
- arxiv url: http://arxiv.org/abs/2304.07774v1
- Date: Sun, 16 Apr 2023 13:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 17:19:04.007297
- Title: Syntactic Complexity Identification, Measurement, and Reduction Through
Controlled Syntactic Simplification
- Title(参考訳): 統語的単純化による統語的複雑度同定・測定・低減
- Authors: Muhammad Salman, Armin Haller, Sergio J. Rodr\'iguez M\'endez
- Abstract要約: 本稿では,複合文と複合文を簡易文の集合に分割・言い換える,古典的な構文的依存性に基づく手法を提案する。
また,文の構文的複雑さを同定し,測定するアルゴリズムも導入した。
この研究は、WSDM-2023 Conferenceにおいて、Learning with Knowledge Graphs (IWLKG) に関する国際ワークショップで受け入れられ、発表された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Text simplification is one of the domains in Natural Language Processing
(NLP) that offers an opportunity to understand the text in a simplified manner
for exploration. However, it is always hard to understand and retrieve
knowledge from unstructured text, which is usually in the form of compound and
complex sentences. There are state-of-the-art neural network-based methods to
simplify the sentences for improved readability while replacing words with
plain English substitutes and summarising the sentences and paragraphs. In the
Knowledge Graph (KG) creation process from unstructured text, summarising long
sentences and substituting words is undesirable since this may lead to
information loss. However, KG creation from text requires the extraction of all
possible facts (triples) with the same mentions as in the text. In this work,
we propose a controlled simplification based on the factual information in a
sentence, i.e., triple. We present a classical syntactic dependency-based
approach to split and rephrase a compound and complex sentence into a set of
simplified sentences. This simplification process will retain the original
wording with a simple structure of possible domain facts in each sentence,
i.e., triples. The paper also introduces an algorithm to identify and measure a
sentence's syntactic complexity (SC), followed by reduction through a
controlled syntactic simplification process. Last, an experiment for a dataset
re-annotation is also conducted through GPT3; we aim to publish this refined
corpus as a resource. This work is accepted and presented in International
workshop on Learning with Knowledge Graphs (IWLKG) at WSDM-2023 Conference. The
code and data is available at www.github.com/sallmanm/SynSim.
- Abstract(参考訳): テキストの単純化は自然言語処理(NLP)の分野の一つであり、簡単な方法でテキストを理解する機会を提供する。
しかし、通常、複雑で複雑な文の形で、構造化されていないテキストから知識を理解し、取り出すのは難しい。
文章を平易な英語の代用語に置き換え、文章や段落を要約しながら読みやすさを向上させるために、最先端のニューラルネットワークベースの方法がある。
非構造化テキストからの知識グラフ(kg)作成プロセスでは、長文と置換語を要約することは、情報損失につながる可能性があるため望ましくない。
しかし、テキストからのkg生成には、テキストと同じ言及を持つすべての可能な事実(トリプル)の抽出が必要である。
本研究では,文中の事実情報,すなわち三重化に基づく制御された単純化を提案する。
本稿では,複合文と複合文を簡素な文に分割・再現するための古典的構文依存型アプローチを提案する。
この単純化プロセスは、各文、すなわち三重項における可能な領域事実の単純な構造で元の単語を保持できる。
また, 文の構文複雑性(sc)を同定・測定するアルゴリズムも導入し, 制御された構文単純化プロセスによる削減を行った。
最後に、データセット再アノテーションの実験もGPT3を通して行われ、この改良されたコーパスをリソースとして公開することを目指している。
この研究は、WSDM-2023 ConferenceにおけるLearning with Knowledge Graphs (IWLKG)の国際ワークショップで受け入れられ、発表された。
コードとデータはwww.github.com/sallmanm/SynSimで入手できる。
関連論文リスト
- Discourse-Aware Text Simplification: From Complex Sentences to Linked
Propositions [11.335080241393191]
Text Simplification (TS)は、テキストの処理を容易にするために文を変更することを目的としている。
本稿では、複雑な英語文を分割し、言い換える、談話対応のTSアプローチを提案する。
単純化された文の上に意味層を置く最小命題のセマンティック階層を生成する。
論文 参考訳(メタデータ) (2023-08-01T10:10:59Z) - Elaborative Simplification as Implicit Questions Under Discussion [51.17933943734872]
本稿では,QUD フレームワークのレンズによる共同作業の簡略化について考察する。
本研究は,QUDを明示的にモデル化することで,作業の単純化と,作業内容と作業内容の関連性について,重要な理解が得られていることを示す。
論文 参考訳(メタデータ) (2023-05-17T17:26:16Z) - SimpLex: a lexical text simplification architecture [0.5156484100374059]
簡単な英文を生成するための新しい単純化アーキテクチャである textscSimpLex を提案する。
提案アーキテクチャでは、ワード埋め込み(Word2Vec)とパープレキシティ(perplexity)、文変換(BERT、RoBERTa、GPT2)、コサイン類似(cosine similarity)のいずれかを使用する。
このソリューションはユーザフレンドリーで使いやすいソフトウェアに組み込まれている。
論文 参考訳(メタデータ) (2023-04-14T08:52:31Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - Text Simplification for Comprehension-based Question-Answering [7.144235435987265]
広く使われているSQuADデータセットの簡易バージョンであるSimple-SQuADをリリースする。
新たに作成したコーパスをベンチマークし,SQuADに基づく質問応答課題における単純化プロセスの効果を検討するためのアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-09-28T18:48:00Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Explainable Prediction of Text Complexity: The Missing Preliminaries for
Text Simplification [13.447565774887215]
テキストの単純化により、アクセシビリティーのためにプロのコンテンツが複雑になる。
入力テキストの簡易版を直接生成するために、エンドツーエンドのニューラルネットワークモデルが広く採用されている。
テキストの単純化をタスクのコンパクトなパイプラインに分解することで、プロセスの透明性と説明可能性を確保することができることを示す。
論文 参考訳(メタデータ) (2020-07-31T03:33:37Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - CompLex: A New Corpus for Lexical Complexity Prediction from Likert
Scale Data [13.224233182417636]
本稿では,連続語彙複雑性予測のための最初の英語データセットを提案する。
我々は5点のLikertスケールスキームを用いて、聖書、Europarl、バイオメディカルテキストの3つのソース/ドメインから、複雑な単語をテキストに注釈付けする。
論文 参考訳(メタデータ) (2020-03-16T03:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。