論文の概要: ERNIE-DOC: The Retrospective Long-Document Modeling Transformer
- arxiv url: http://arxiv.org/abs/2012.15688v1
- Date: Thu, 31 Dec 2020 16:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:12:54.022529
- Title: ERNIE-DOC: The Retrospective Long-Document Modeling Transformer
- Title(参考訳): ERNIE-DOC:Retrospective Long-Document Modeling Transformer
- Authors: Siyu Ding, Junyuan Shang, Shuohuan Wang, Yu Sun, Hao Tian, Hua Wu,
Haifeng Wang
- Abstract要約: Recurrence Transformersに基づく文書レベルの言語プリトレーニングモデルであるERNIE-DOCを提案する。
ふりかえりフィード機構とリカレンスメカニズムの強化という2つのよく設計されたテクニックにより、ELNIE-DOCははるかに長いコンテキスト長を実現できます。
英語と中国語の文書レベルのタスクについて様々な実験を行った。
- 参考スコア(独自算出の注目度): 24.426571160930635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are not suited for processing long document input due to its
quadratically increasing memory and time consumption. Simply truncating a long
document or applying the sparse attention mechanism will incur the context
fragmentation problem or inferior modeling capability with comparable model
size. In this paper, we propose ERNIE-DOC, a document-level language
pretraining model based on Recurrence Transformers. Two well-designed
techniques, namely the retrospective feed mechanism and the enhanced recurrence
mechanism enable ERNIE-DOC with much longer effective context length to capture
the contextual information of a whole document. We pretrain ERNIE-DOC to
explicitly learn the relationship among segments with an additional
document-aware segment reordering objective. Various experiments on both
English and Chinese document-level tasks are conducted. ERNIE-DOC achieves SOTA
language modeling result of 16.8 ppl on WikiText-103 and outperforms
competitive pretraining models on most language understanding tasks such as
text classification, question answering by a large margin.
- Abstract(参考訳): トランスフォーマーは、メモリと時間消費が二次的に増加するため、長いドキュメント入力を処理するには適していない。
単に長いドキュメントを切断したり、スパースアテンション機構を適用すると、コンテキストフラグメンテーションの問題や、同等のモデルサイズで劣るモデリング能力が発生する。
本稿では,Recurrence Transformerに基づく文書レベルの事前学習モデルであるERNIE-DOCを提案する。
ふりかえりフィード機構と拡張反復機構という2つのよく設計された技術により、ERNIE-DOCはドキュメント全体のコンテキスト情報をキャプチャできる。
我々はERNIE-DOCを事前訓練し、追加の文書認識セグメント並べ替え目的を用いてセグメント間の関係を明示的に学習する。
英語と中国語の文書レベルのタスクについて様々な実験を行った。
ERNIE-DOCは、WikiText-103上で16.8pplのSOTA言語モデリング結果を達成し、テキスト分類や質問応答など、ほとんどの言語理解タスクにおいて、競合する事前学習モデルよりも優れている。
関連論文リスト
- A Novel LLM-based Two-stage Summarization Approach for Long Dialogues [9.835499880812646]
本研究では,長い文書から情報を分割・凝縮する階層的枠組みを提案する。
凝縮段階は、教師なし生成モデルを用いて凝縮データを生成する。
要約段階は、縮合されたデータ上の抽象的な要約モデルを微調整して最終結果を生成する。
論文 参考訳(メタデータ) (2024-10-09T03:42:40Z) - DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - Length-Aware Multi-Kernel Transformer for Long Document Classification [4.796752450839119]
長いドキュメントは、かなりのメモリ消費のために、ニューラルネットワークモデルに固有の課題を生じさせる。
長文分類における新たな課題に対処するため,Longth-Aware Multi- Kernel Transformer (LAMKIT)を提案する。
論文 参考訳(メタデータ) (2024-05-11T16:48:06Z) - Long-Range Transformer Architectures for Document Understanding [1.9331361036118608]
Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではなかった。
本稿では,2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを提案する。
相対的な2次元の注意は、正規および長距離の両方のモデルにおいて高密度テキストに有効であることが判明した。
論文 参考訳(メタデータ) (2023-09-11T14:45:24Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - SMDT: Selective Memory-Augmented Neural Document Translation [53.4627288890316]
本稿では,文脈の広い仮説空間を含む文書を扱うために,選択的メモリ拡張型ニューラル文書翻訳モデルを提案する。
トレーニングコーパスから類似のバイリンガル文ペアを抽出し,グローバルな文脈を拡大する。
ローカルなコンテキストと多様なグローバルなコンテキストをキャプチャする選択的なメカニズムで、2ストリームのアテンションモデルを拡張する。
論文 参考訳(メタデータ) (2022-01-05T14:23:30Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。