論文の概要: Length-Aware Multi-Kernel Transformer for Long Document Classification
- arxiv url: http://arxiv.org/abs/2405.07052v1
- Date: Sat, 11 May 2024 16:48:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 18:32:45.697133
- Title: Length-Aware Multi-Kernel Transformer for Long Document Classification
- Title(参考訳): 長大文書分類用長長対応マルチカーネル変換器
- Authors: Guangzeng Han, Jack Tsao, Xiaolei Huang,
- Abstract要約: 長いドキュメントは、かなりのメモリ消費のために、ニューラルネットワークモデルに固有の課題を生じさせる。
長文分類における新たな課題に対処するため,Longth-Aware Multi- Kernel Transformer (LAMKIT)を提案する。
- 参考スコア(独自算出の注目度): 4.796752450839119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lengthy documents pose a unique challenge to neural language models due to substantial memory consumption. While existing state-of-the-art (SOTA) models segment long texts into equal-length snippets (e.g., 128 tokens per snippet) or deploy sparse attention networks, these methods have new challenges of context fragmentation and generalizability due to sentence boundaries and varying text lengths. For example, our empirical analysis has shown that SOTA models consistently overfit one set of lengthy documents (e.g., 2000 tokens) while performing worse on texts with other lengths (e.g., 1000 or 4000). In this study, we propose a Length-Aware Multi-Kernel Transformer (LAMKIT) to address the new challenges for the long document classification. LAMKIT encodes lengthy documents by diverse transformer-based kernels for bridging context boundaries and vectorizes text length by the kernels to promote model robustness over varying document lengths. Experiments on five standard benchmarks from health and law domains show LAMKIT outperforms SOTA models up to an absolute 10.9% improvement. We conduct extensive ablation analyses to examine model robustness and effectiveness over varying document lengths.
- Abstract(参考訳): 長いドキュメントは、かなりのメモリ消費のために、ニューラルネットワークモデルに固有の課題を生じさせる。
既存の最先端(SOTA)モデルは、長いテキストを同じ長さのスニペット(例えば、1スニペットあたり128トークン)に分割したり、スパースアテンションネットワークを展開したりするが、これらの手法には、文境界と様々なテキスト長によるコンテキストの断片化と一般化性の新たな課題がある。
例えば、我々の経験的分析では、SOTAモデルは1組の長文(例、2000トークン)を一貫してオーバーフィットし、他の長文(例、1000、4000)では悪化している。
本研究では,Longth-Aware Multi-Kernel Transformer (LAMKIT)を提案する。
LAMKITは、コンテキスト境界をブリッジする様々なトランスフォーマーベースのカーネルによって長大なドキュメントをエンコードし、カーネルによってテキスト長をベクトル化し、さまざまなドキュメント長に対してモデルロバスト性を促進する。
健康と法分野の5つの標準ベンチマークの実験では、LAMKITはSOTAモデルよりも10.9%向上している。
各種文書長に対するモデルロバスト性と有効性を検討するために,広範囲なアブレーション解析を行った。
関連論文リスト
- Summarizing long regulatory documents with a multi-step pipeline [2.2591852560804675]
長い規則文を要約するための2段階アーキテクチャの有効性は、使用するモデルによって異なることを示す。
コンテクスト長の短い抽象エンコーダ・デコーダモデルでは抽出ステップの有効性が異なるが、長文エンコーダ・デコーダモデルでは抽出ステップが性能を悪化させる。
論文 参考訳(メタデータ) (2024-08-19T08:07:25Z) - mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。
視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。
この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-04T17:59:25Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Modeling Context With Linear Attention for Scalable Document-Level
Translation [72.41955536834702]
本稿では,近年の文書翻訳における線形アテンションモデルの有効性について検討し,直流帰納バイアスを促進するためにセンデンシャルゲートで拡張する。
感性ゲーティングはIWSLTの翻訳品質をさらに向上させることを示す。
論文 参考訳(メタデータ) (2022-10-16T03:41:50Z) - Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。
長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T00:41:07Z) - Revisiting Transformer-based Models for Long Document Classification [31.60414185940218]
実世界のアプリケーションでは、マルチページのマルチパラグラフ文書が一般的であり、バニラトランスフォーマーベースのモデルでは効率的にエンコードできない。
本稿では,変圧器の計算オーバーヘッドを軽減するために,トランスフォーマーを用いた長期文書分類(TrLDC)手法を比較した。
我々は、より長いテキストを処理できることの明確な利点を観察し、その結果に基づいて、長い文書分類タスクにTransformerベースのモデルを適用する実践的なアドバイスを導き出す。
論文 参考訳(メタデータ) (2022-04-14T00:44:36Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - ERNIE-DOC: The Retrospective Long-Document Modeling Transformer [24.426571160930635]
Recurrence Transformersに基づく文書レベルの言語プリトレーニングモデルであるERNIE-DOCを提案する。
ふりかえりフィード機構とリカレンスメカニズムの強化という2つのよく設計されたテクニックにより、ELNIE-DOCははるかに長いコンテキスト長を実現できます。
英語と中国語の文書レベルのタスクについて様々な実験を行った。
論文 参考訳(メタデータ) (2020-12-31T16:12:48Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。