論文の概要: A Survey on Long Text Modeling with Transformers
- arxiv url: http://arxiv.org/abs/2302.14502v1
- Date: Tue, 28 Feb 2023 11:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 16:53:36.691716
- Title: A Survey on Long Text Modeling with Transformers
- Title(参考訳): 変圧器を用いた長文モデリングに関する研究
- Authors: Zican Dong, Tianyi Tang, Lunyi Li and Wayne Xin Zhao
- Abstract要約: 本稿では,Transformerモデルに基づく長文モデリングの最近の進歩について概説する。
長さ制限を満たすために長い入力を処理し、改良されたTransformerアーキテクチャを設計する方法について論じる。
本稿では,長文モデリングに関わる4つの典型的な応用について述べるとともに,今後の方向性を議論する。
- 参考スコア(独自算出の注目度): 33.9069167068622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling long texts has been an essential technique in the field of natural
language processing (NLP). With the ever-growing number of long documents, it
is important to develop effective modeling methods that can process and analyze
such texts. However, long texts pose important research challenges for existing
text models, with more complex semantics and special characteristics. In this
paper, we provide an overview of the recent advances on long texts modeling
based on Transformer models. Firstly, we introduce the formal definition of
long text modeling. Then, as the core content, we discuss how to process long
input to satisfy the length limitation and design improved Transformer
architectures to effectively extend the maximum context length. Following this,
we discuss how to adapt Transformer models to capture the special
characteristics of long texts. Finally, we describe four typical applications
involving long text modeling and conclude this paper with a discussion of
future directions. Our survey intends to provide researchers with a synthesis
and pointer to related work on long text modeling.
- Abstract(参考訳): 長文のモデリングは自然言語処理(NLP)の分野で重要な技術である。
長い文書の数が増え続ける中、そのようなテキストを処理し分析できる効果的なモデリング手法を開発することが重要である。
しかし、長いテキストは、より複雑な意味論と特別な特徴を持つ既存のテキストモデルにとって重要な研究課題となる。
本稿では,トランスフォーマーモデルに基づく長文モデリングの最近の進歩について概説する。
まず,長文モデリングの形式的定義を紹介する。
そして,コアコンテンツとして,長さ制限を満たすために長い入力をいかに処理するかを議論し,最大文脈長を効果的に拡張するためにトランスフォーマーアーキテクチャを改良した。
次に, 長文の特殊特性を捉えるためにトランスフォーマーモデルを適応させる方法について述べる。
最後に,長文モデリングを含む4つの典型的なアプリケーションについて述べるとともに,今後の方向性について考察する。
本調査は,長文モデリングに関する研究の合成とポインタを研究者に提供することを目的としている。
関連論文リスト
- Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。
長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T00:41:07Z) - Data-to-text Generation with Variational Sequential Planning [74.3955521225497]
非言語的な入力からテキスト出力を生成することを目的としたデータ・ツー・テキスト生成の課題について考察する。
協調的かつ有意義な方法で高レベルの情報を整理する責任を負う計画要素を付加したニューラルモデルを提案する。
我々は、計画と生成のステップをインターリーブしながら、構造化された変動モデルで逐次、潜在計画を推測する。
論文 参考訳(メタデータ) (2022-02-28T13:17:59Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - DiscoDVT: Generating Long Text with Discourse-Aware Discrete Variational
Transformer [40.10695204278747]
本稿では,不整合問題に対処する談話対応離散変分変換器DiscoDVTを提案する。
本研究では、2つのオープンなストーリー生成データセットについて広範な実験を行い、より長い範囲のコヒーレンスを持つ長文を生成するためにモデルを導く談話構造に対して有意義な対応を学習していることを示す。
論文 参考訳(メタデータ) (2021-10-12T13:41:06Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z) - Pretrained Language Models for Text Generation: A Survey [46.03096493973206]
本稿では、テキスト生成のための事前学習言語モデル(PLM)のトピックにおいて達成された大きな進歩について概説する。
我々は、既存のPLMを異なる入力データに適応させ、生成したテキストの特別な特性を満たす方法について論じる。
論文 参考訳(メタデータ) (2021-05-21T12:27:44Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。