論文の概要: From Lengthy to Lucid: A Systematic Literature Review on NLP Techniques
for Taming Long Sentences
- arxiv url: http://arxiv.org/abs/2312.05172v1
- Date: Fri, 8 Dec 2023 16:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 14:38:59.843577
- Title: From Lengthy to Lucid: A Systematic Literature Review on NLP Techniques
for Taming Long Sentences
- Title(参考訳): 長文からルシッドへ:長文処理のためのNLP技術に関する体系的文献レビュー
- Authors: Tatiana Passali, Efstathios Chatzikyriakidis, Stelios Andreadis,
Thanos G. Stavropoulos, Anastasia Matonaki, Anestis Fachantidis, Grigorios
Tsoumakas
- Abstract要約: 長い文は長年にわたって、文書によるコミュニケーションにおいて永続的な問題であった。
本調査は,長文問題に対処するための2つの主要な戦略を体系的にレビューする。
我々は最も代表的な手法を包括的分類に分類し分類する。
- 参考スコア(独自算出の注目度): 3.4961473050660303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long sentences have been a persistent issue in written communication for many
years since they make it challenging for readers to grasp the main points or
follow the initial intention of the writer. This survey, conducted using the
PRISMA guidelines, systematically reviews two main strategies for addressing
the issue of long sentences: a) sentence compression and b) sentence splitting.
An increased trend of interest in this area has been observed since 2005, with
significant growth after 2017. Current research is dominated by supervised
approaches for both sentence compression and splitting. Yet, there is a
considerable gap in weakly and self-supervised techniques, suggesting an
opportunity for further research, especially in domains with limited data. In
this survey, we categorize and group the most representative methods into a
comprehensive taxonomy. We also conduct a comparative evaluation analysis of
these methods on common sentence compression and splitting datasets. Finally,
we discuss the challenges and limitations of current methods, providing
valuable insights for future research directions. This survey is meant to serve
as a comprehensive resource for addressing the complexities of long sentences.
We aim to enable researchers to make further advancements in the field until
long sentences are no longer a barrier to effective communication.
- Abstract(参考訳): 長い文章は、読者がメインポイントを把握したり、執筆者の意図に従ったりすることを困難にして以来、長年にわたって執筆コミュニケーションにおいて永続的な問題となっている。
PRISMAガイドラインを用いて実施したこの調査は、長文問題に対処するための2つの主要な戦略を体系的にレビューする。
a)文の圧縮と
b) 文の分割。
2005年以降、この地域への関心が高まり、2017年以降は大きな成長を遂げている。
現在の研究は、文の圧縮と分割の両方を監督するアプローチが支配的である。
しかし、弱く自己監督的な技術にはかなりのギャップがあり、特に限られたデータを持つ領域において、さらなる研究の機会が示唆されている。
本調査では,最も代表的な手法を包括的分類群に分類し,分類する。
また、これらの手法の比較評価分析を、共通文圧縮と分割データセット上で実施する。
最後に,現在の手法の課題と限界について議論し,今後の研究に有用な知見を提供する。
この調査は、長い文の複雑さに対処するための包括的な情報源となることを意図している。
我々は、長文がもはや効果的なコミュニケーションの障壁にならないまで、研究者がフィールドでさらなる進歩を行えるようにする。
関連論文リスト
- The What, Why, and How of Context Length Extension Techniques in Large
Language Models -- A Detailed Survey [6.516561905186376]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)における顕著なブレークスルーを表している。
本研究では,文脈長の延長に伴う固有の課題について検討し,研究者が採用した既存戦略の概要を整理した。
評価基準について,研究コミュニティ内に合意が存在するか検討し,さらに合意が必要な分野を特定する。
論文 参考訳(メタデータ) (2024-01-15T18:07:21Z) - Towards Better Chain-of-Thought Prompting Strategies: A Survey [60.75420407216108]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の促進戦略として使用すると,その印象的な強度を示す。
近年,CoTの促進効果が注目されている。
この調査は、関連する研究全般の参考になるかもしれない。
論文 参考訳(メタデータ) (2023-10-08T01:16:55Z) - A Comprehensive Survey of Sentence Representations: From the BERT Epoch
to the ChatGPT Era and Beyond [45.455178613559006]
文表現は、検索、質問応答、テキスト分類などのNLPアプリケーションにおいて重要な要素である。
彼らは文章の意味を捉え、機械が人間の言語について理解し、推論することを可能にする。
文表現に関する文献のレビューは今のところない。
論文 参考訳(メタデータ) (2023-05-22T02:31:15Z) - Full-Text Argumentation Mining on Scientific Publications [3.8754200816873787]
フルテキストSAMに対してADURとAREを組み合わせた逐次パイプラインモデルを提案する。
両サブタスクにおける事前学習言語モデル(PLM)の性能について,最初の解析を行った。
本稿では,非連続型ADUと談話コネクタの解釈が重要な課題であることを示す。
論文 参考訳(メタデータ) (2022-10-24T10:05:30Z) - A Character-Level Length-Control Algorithm for Non-Autoregressive
Sentence Summarization [23.495225374478295]
文要約は、長い文を主幹を保ちながら短い文に圧縮することを目的としており、見出し生成のような広範囲の現実世界の応用がある。
本研究では,要約のための文字レベル長制御の新しい問題に対処し,コネクショニスト時間分類(CTC)モデルに基づく動的プログラミングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-28T21:09:53Z) - Predicting Above-Sentence Discourse Structure using Distant Supervision
from Topic Segmentation [8.688675709130289]
RSTスタイルの談話解析は多くのNLPタスクにおいて重要な役割を担っている。
その重要性にもかかわらず、現代の談話解析における最も一般的な制限の1つは、大規模なデータセットの欠如である。
論文 参考訳(メタデータ) (2021-12-12T10:16:45Z) - Clustering and Network Analysis for the Embedding Spaces of Sentences
and Sub-Sentences [69.3939291118954]
本稿では,文とサブ文の埋め込みを対象とする包括的クラスタリングとネットワーク解析について検討する。
その結果,1つの手法が最もクラスタリング可能な埋め込みを生成することがわかった。
一般に、スパン部分文の埋め込みは、原文よりもクラスタリング特性が優れている。
論文 参考訳(メタデータ) (2021-10-02T00:47:35Z) - Phrase Retrieval Learns Passage Retrieval, Too [77.57208968326422]
文節検索が,文節や文書を含む粗いレベルの検索の基盤となるかを検討する。
句検索システムでは,句検索の精度が向上し,句検索の精度が向上していることを示す。
また,句のフィルタリングやベクトル量子化により,インデックスのサイズを4~10倍に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-16T17:42:45Z) - A Survey of Unsupervised Dependency Parsing [62.16714720135358]
教師なしの依存関係解析は、正しいパースツリーのアノテーションを持たない文から依存関係を学ぶことを目的としている。
その困難さにもかかわらず、教師なしの構文解析は、ほとんど無制限に注釈のないテキストデータを利用することができるため、興味深い研究方向である。
論文 参考訳(メタデータ) (2020-10-04T10:51:22Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。