論文の概要: HiPool: Modeling Long Documents Using Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2305.03319v1
- Date: Fri, 5 May 2023 06:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 15:09:22.923958
- Title: HiPool: Modeling Long Documents Using Graph Neural Networks
- Title(参考訳): HiPool: グラフニューラルネットワークによる長いドキュメントのモデリング
- Authors: Irene Li, Aosong Feng, Dragomir Radev, Rex Ying
- Abstract要約: 自然言語処理(NLP)の長いシーケンスは難しい問題である。
最近の事前学習言語モデルは、多くのNLPタスクにおいて満足な性能を達成する。
我々は,最大53kのサンプルと平均トークンの長さ4034のデータセットを合計6つ集めて,新たな挑戦的ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 24.91040673099863
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Encoding long sequences in Natural Language Processing (NLP) is a challenging
problem. Though recent pretraining language models achieve satisfying
performances in many NLP tasks, they are still restricted by a pre-defined
maximum length, making them challenging to be extended to longer sequences. So
some recent works utilize hierarchies to model long sequences. However, most of
them apply sequential models for upper hierarchies, suffering from long
dependency issues. In this paper, we alleviate these issues through a
graph-based method. We first chunk the sequence with a fixed length to model
the sentence-level information. We then leverage graphs to model intra- and
cross-sentence correlations with a new attention mechanism. Additionally, due
to limited standard benchmarks for long document classification (LDC), we
propose a new challenging benchmark, totaling six datasets with up to 53k
samples and 4034 average tokens' length. Evaluation shows our model surpasses
competitive baselines by 2.6% in F1 score, and 4.8% on the longest sequence
dataset. Our method is shown to outperform hierarchical sequential models with
better performance and scalability, especially for longer sequences.
- Abstract(参考訳): 自然言語処理(nlp)における長いシーケンスのエンコーディングは難しい問題である。
最近の事前学習言語モデルは、多くのNLPタスクで満足なパフォーマンスを実現するが、まだ定義済みの最大長によって制限されているため、長いシーケンスに拡張することは困難である。
そのため、階層構造を利用して長い列をモデル化する最近の研究もある。
しかし、それらのほとんどは、長い依存関係の問題に苦しむ、上位階層に対してシーケンシャルなモデルを適用する。
本稿では,これらの問題をグラフベースで解決する。
まず、文レベルの情報をモデル化するために、シーケンスを一定の長さでチャンクする。
次に,新しい注意機構を用いて,グラフを利用して相互間相関をモデル化する。
さらに,長文分類のための標準ベンチマーク(LDC)の制限により,最大53kサンプルと平均トークン長4034のデータセットを合計6つ集めて,新たな挑戦的ベンチマークを提案する。
評価の結果,f1スコアでは2.6%,最長シーケンスデータセットでは4.8%の競合ベースラインを上回った。
提案手法は,特に長いシーケンスにおいて,性能とスケーラビリティを向上した階層的逐次モデルより優れていることを示す。
関連論文リスト
- LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - No Length Left Behind: Enhancing Knowledge Tracing for Modeling
Sequences of Excessive or Insufficient Lengths [3.2687390531088414]
知識追跡は,過去の質問応答行動に基づいて,学生の実践に対する反応を予測することを目的としている。
シーケンスが長くなると、計算コストは指数関数的に増加する。
シーケンス・フレキシブル・ナレッジ・トラクション(SFKT)と呼ばれるモデルを提案する。
論文 参考訳(メタデータ) (2023-08-07T11:30:58Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Do Long-Range Language Models Actually Use Long-Range Context? [27.084888397778823]
言語モデルは一般的に、短絡した入力シーケンスに基づいて訓練される。
近年の自己注意の効率向上に向けた取り組みは、長距離トランスフォーマー言語モデルの普及につながっている。
論文 参考訳(メタデータ) (2021-09-19T12:49:43Z) - Neural Latent Dependency Model for Sequence Labeling [47.32215014130811]
シークエンスラベリングにおける古典的アプローチは線形鎖条件付きランダムフィールド(CRF)である
線形鎖 CRF の1つの制限は、ラベル間の長距離依存をモデル化できないことである。
高次 CRF は線形鎖 CRF をその順序以上に拡張するが、計算複雑性は指数関数的に増大する。
木構造を持つラベル間の任意の長さをモデル化するニューラル潜時依存モデル(NLDM)を提案する。
論文 参考訳(メタデータ) (2020-11-10T10:05:21Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。