論文の概要: Neural Natural Language Processing for Long Texts: A Survey of the
State-of-the-Art
- arxiv url: http://arxiv.org/abs/2305.16259v5
- Date: Sun, 23 Jul 2023 20:00:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 21:05:34.672382
- Title: Neural Natural Language Processing for Long Texts: A Survey of the
State-of-the-Art
- Title(参考訳): 長文のニューラル自然言語処理:最新技術に関する調査
- Authors: Dimitrios Tsirmpas, Ioannis Gkionis, Ioannis Mademlis, Georgios
Papadopoulos
- Abstract要約: ディープニューラルネットワーク(DNN)の採用は、過去10年間に自然言語処理(NLP)に大きな恩恵をもたらしてきた。
オンラインにアップロードされるドキュメントのサイズがますます大きくなると、長文の自動理解が重要な問題になる。
この記事では、このダイナミックドメインのエントリポイントとして機能し、2つの目的を達成することを目的としています。まず、関連するニューラルネットワークビルディングブロックの概要を説明し、フィールドの簡潔なチュートリアルとして機能します。
第2に、文書分類と文書要約という2つの主要なタスクに重点を置いて、現在最先端の長期文書NLPを簡潔に検証する。
- 参考スコア(独自算出の注目度): 4.568911586155096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The adoption of Deep Neural Networks (DNNs) has greatly benefited Natural
Language Processing (NLP) during the past decade. However, the demands of long
document analysis are quite different from those of shorter texts, while the
ever increasing size of documents uploaded on-line renders automated
understanding of lengthy texts a critical issue. Relevant applications include
automated Web mining, legal document review, medical records analysis,
financial reports analysis, contract management, environmental impact
assessment, news aggregation, etc. Despite the relatively recent development of
efficient algorithms for analyzing long documents, practical tools in this
field are currently flourishing. This article serves as an entry point into
this dynamic domain and aims to achieve two objectives. Firstly, it provides an
overview of the relevant neural building blocks, serving as a concise tutorial
for the field. Secondly, it offers a brief examination of the current
state-of-the-art in long document NLP, with a primary focus on two key tasks:
document classification and document summarization. Sentiment analysis for long
texts is also covered, since it is typically treated as a particular case of
document classification. Consequently, this article presents an introductory
exploration of document-level analysis, addressing the primary challenges,
concerns, and existing solutions. Finally, the article presents publicly
available annotated datasets that can facilitate further research in this area.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の採用は、過去10年間で自然言語処理(NLP)に大きな恩恵を受けている。
しかし、長文解析の要求は短いテキストの要求とはかなり異なるが、オンラインにアップロードされた文書のサイズが増大すると、長文の自動理解が重要な問題となる。
関連するアプリケーションは、自動化されたWebマイニング、法的文書レビュー、医療記録分析、財務報告分析、契約管理、環境影響評価、ニュース集約などである。
長い文書を解析するための効率的なアルゴリズムが近年開発されているにもかかわらず、この分野の実践的ツールは現在盛んである。
この記事では、この動的ドメインのエントリポイントとして機能し、2つの目的を達成することを目的としています。
まず、関連するニューラルネットワーク構築ブロックの概要を提供し、フィールドの簡潔なチュートリアルとして機能する。
第二に、ドキュメント分類と文書要約という2つの重要なタスクを中心に、ロングドキュメントnlpにおける現在の最先端の簡単な検証を提供する。
典型的には文書分類の特定の事例として扱われるので、長文の感性分析もカバーされている。
そこで本稿では,文書レベルの分析の序文として,主な課題,課題,既存ソリューションについて述べる。
最後に、この記事は、この分野のさらなる研究を促進するために利用可能な注釈付きデータセットを提示している。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - Timestamping Documents and Beliefs [1.4467794332678539]
文書デートは、文書の時間構造に関する推論を必要とする難しい問題である。
本稿では,グラフ畳み込みネットワーク(GCN)に基づく文書年代測定手法であるNeuralDaterを提案する。
また,注意に基づく文書デートシステムであるAD3: Attentive Deep Document Daterを提案する。
論文 参考訳(メタデータ) (2021-06-09T02:12:18Z) - Bringing Structure into Summaries: a Faceted Summarization Dataset for
Long Scientific Documents [30.09742243490895]
FacetSumは、Emeraldのジャーナル記事上に構築された顔の要約ベンチマークである。
データセットの分析と実験結果から,構造を要約に組み込むことの重要性が明らかになった。
我々は、FacetSumが要約研究のさらなる進歩を促し、NLPシステムの開発を促進すると信じている。
論文 参考訳(メタデータ) (2021-05-31T22:58:38Z) - Enhancing Extractive Text Summarization with Topic-Aware Graph Neural
Networks [21.379555672973975]
本稿では,グラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。
本モデルでは,文章選択のための文書レベルの特徴を提供する潜在トピックを発見するために,共同ニューラルトピックモデル(NTM)を統合している。
実験結果から,CNN/DMおよびNYTデータセットにおいて,本モデルがほぼ最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T09:30:04Z) - Extracting Summary Knowledge Graphs from Long Documents [48.92130466606231]
本稿では,長い文書から要約された知識グラフを予測する新しいテキスト・ツー・グラフタスクを提案する。
自動アノテーションと人文アノテーションを用いた200k文書/グラフペアのデータセットを開発する。
論文 参考訳(メタデータ) (2020-09-19T04:37:33Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z) - Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。
本稿では154K文書から622Kサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-02T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。