Fugu-MT 論文翻訳(概要): Neural Natural Language Processing for Long Texts: A Survey of the State-of-the-Art

論文の概要: Neural Natural Language Processing for Long Texts: A Survey of the State-of-the-Art

arxiv url: http://arxiv.org/abs/2305.16259v1
Date: Thu, 25 May 2023 17:13:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 13:31:34.700577
Title: Neural Natural Language Processing for Long Texts: A Survey of the State-of-the-Art
Title（参考訳）: 長文のニューラル自然言語処理:最新技術に関する調査
Authors: Dimitrios Tsirmpas, Ioannis Gkionis, Ioannis Mademlis
Abstract要約: ディープニューラルネットワーク(DNN)の採用は、過去10年間に自然言語処理(NLP)に大きな恩恵をもたらしてきた。長文解析の要求は、短いテキストの要求とは大きく異なり、長い文書にNLPをアップロードした文書のサイズは、研究の重要な領域である。本稿では,その領域における現状を概観し,関連するニューラルネットワーク構築ブロックを概説し,文書分類,要約,感性分析における言及利用の2つの主要なNLPタスクに焦点をあてる。
参考スコア（独自算出の注目度）: 5.134998749955833
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The adoption of Deep Neural Networks (DNNs) has greatly benefited Natural Language Processing (NLP) during the past decade. However, the demands of long documents analysis are quite different from those of shorter texts, with the ever increasing size of documents uploaded online rendering NLP on long documents a critical area of research. This paper surveys the current state-of-the-art in the domain, overviewing the relevant neural building blocks and subsequently focusing on two main NLP tasks: Document Classification, Summarization as well as mentioning uses in Sentiment Analysis. We detail the challenges, issues and current solutions related to long-document NLP. We also list publicly available, labelled, long-document datasets used in current research.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)の採用は、過去10年間で自然言語処理(NLP)に大きな恩恵を受けている。しかし、長い文書分析の要求は、短いテキストの要求とは大きく異なり、長い文書にnlpをレンダリングするオンライン文書のサイズがますます増大していることは、重要な研究領域である。本稿では,そのドメインの現状を調査し,関連するニューラルビルディングブロックを概観するとともに,文書分類,要約,感情分析における言及活用という2つの主要なnlpタスクに注目した。長文NLPに関する課題,課題,現在のソリューションについて詳述する。また、現在研究で使われている公開、ラベル付き、長期ドキュメントデータセットもリストアップします。

関連論文リスト

Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。汎用OmniDocBenchに対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2026-02-13T14:22:10Z)
Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文参考訳（メタデータ） (2025-11-28T03:09:40Z)
ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文参考訳（メタデータ） (2025-09-01T11:32:24Z)
DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文参考訳（メタデータ） (2025-05-26T14:45:12Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文参考訳（メタデータ） (2023-05-23T10:39:57Z)
Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文参考訳（メタデータ） (2022-12-20T17:00:36Z)
Timestamping Documents and Beliefs [1.4467794332678539]
文書デートは、文書の時間構造に関する推論を必要とする難しい問題である。本稿では,グラフ畳み込みネットワーク(GCN)に基づく文書年代測定手法であるNeuralDaterを提案する。また,注意に基づく文書デートシステムであるAD3: Attentive Deep Document Daterを提案する。
論文参考訳（メタデータ） (2021-06-09T02:12:18Z)
Bringing Structure into Summaries: a Faceted Summarization Dataset for Long Scientific Documents [30.09742243490895]
FacetSumは、Emeraldのジャーナル記事上に構築された顔の要約ベンチマークである。データセットの分析と実験結果から,構造を要約に組み込むことの重要性が明らかになった。我々は、FacetSumが要約研究のさらなる進歩を促し、NLPシステムの開発を促進すると信じている。
論文参考訳（メタデータ） (2021-05-31T22:58:38Z)
Enhancing Extractive Text Summarization with Topic-Aware Graph Neural Networks [21.379555672973975]
本稿では,グラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。本モデルでは,文章選択のための文書レベルの特徴を提供する潜在トピックを発見するために,共同ニューラルトピックモデル(NTM)を統合している。実験結果から,CNN/DMおよびNYTデータセットにおいて,本モデルがほぼ最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2020-10-13T09:30:04Z)
Extracting Summary Knowledge Graphs from Long Documents [48.92130466606231]
本稿では,長い文書から要約された知識グラフを予測する新しいテキスト・ツー・グラフタスクを提案する。自動アノテーションと人文アノテーションを用いた200k文書/グラフペアのデータセットを開発する。
論文参考訳（メタデータ） (2020-09-19T04:37:33Z)
Machine Identification of High Impact Research through Text and Image Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文参考訳（メタデータ） (2020-05-20T19:12:24Z)
From Standard Summarization to New Tasks and Beyond: Summarization with Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文参考訳（メタデータ） (2020-05-10T14:59:36Z)
Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。本稿では154K文書から622Kサンプルのデータセットを作成する。
論文参考訳（メタデータ） (2020-02-02T03:54:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。