論文の概要: A Survey on Long Text Modeling with Transformers
- arxiv url: http://arxiv.org/abs/2302.14502v1
- Date: Tue, 28 Feb 2023 11:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 16:53:36.691716
- Title: A Survey on Long Text Modeling with Transformers
- Title(参考訳): 変圧器を用いた長文モデリングに関する研究
- Authors: Zican Dong, Tianyi Tang, Lunyi Li and Wayne Xin Zhao
- Abstract要約: 本稿では,Transformerモデルに基づく長文モデリングの最近の進歩について概説する。
長さ制限を満たすために長い入力を処理し、改良されたTransformerアーキテクチャを設計する方法について論じる。
本稿では,長文モデリングに関わる4つの典型的な応用について述べるとともに,今後の方向性を議論する。
- 参考スコア(独自算出の注目度): 33.9069167068622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling long texts has been an essential technique in the field of natural
language processing (NLP). With the ever-growing number of long documents, it
is important to develop effective modeling methods that can process and analyze
such texts. However, long texts pose important research challenges for existing
text models, with more complex semantics and special characteristics. In this
paper, we provide an overview of the recent advances on long texts modeling
based on Transformer models. Firstly, we introduce the formal definition of
long text modeling. Then, as the core content, we discuss how to process long
input to satisfy the length limitation and design improved Transformer
architectures to effectively extend the maximum context length. Following this,
we discuss how to adapt Transformer models to capture the special
characteristics of long texts. Finally, we describe four typical applications
involving long text modeling and conclude this paper with a discussion of
future directions. Our survey intends to provide researchers with a synthesis
and pointer to related work on long text modeling.
- Abstract(参考訳): 長文のモデリングは自然言語処理(NLP)の分野で重要な技術である。
長い文書の数が増え続ける中、そのようなテキストを処理し分析できる効果的なモデリング手法を開発することが重要である。
しかし、長いテキストは、より複雑な意味論と特別な特徴を持つ既存のテキストモデルにとって重要な研究課題となる。
本稿では,トランスフォーマーモデルに基づく長文モデリングの最近の進歩について概説する。
まず,長文モデリングの形式的定義を紹介する。
そして,コアコンテンツとして,長さ制限を満たすために長い入力をいかに処理するかを議論し,最大文脈長を効果的に拡張するためにトランスフォーマーアーキテクチャを改良した。
次に, 長文の特殊特性を捉えるためにトランスフォーマーモデルを適応させる方法について述べる。
最後に,長文モデリングを含む4つの典型的なアプリケーションについて述べるとともに,今後の方向性について考察する。
本調査は,長文モデリングに関する研究の合成とポインタを研究者に提供することを目的としている。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - Summarizing long regulatory documents with a multi-step pipeline [2.2591852560804675]
長い規則文を要約するための2段階アーキテクチャの有効性は、使用するモデルによって異なることを示す。
コンテクスト長の短い抽象エンコーダ・デコーダモデルでは抽出ステップの有効性が異なるが、長文エンコーダ・デコーダモデルでは抽出ステップが性能を悪化させる。
論文 参考訳(メタデータ) (2024-08-19T08:07:25Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - Prompting Large Language Models for Topic Modeling [10.31712610860913]
大規模言語モデル(LLM)の高度な言語理解を活用する新しいトピックモデリング手法であるPromptTopicを提案する。
個々の文書から文章レベルでトピックを抽出し、これらのトピックを事前定義された量に集約して凝縮し、最終的に様々な長さのテキストに対して一貫性のあるトピックを提供する。
PromptTopicを3つの非常に多様なデータセットの最先端のベースラインに対してベンチマークし、意味のあるトピックを発見する能力を確立しました。
論文 参考訳(メタデータ) (2023-12-15T11:15:05Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。
長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T00:41:07Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z) - Pretrained Language Models for Text Generation: A Survey [46.03096493973206]
本稿では、テキスト生成のための事前学習言語モデル(PLM)のトピックにおいて達成された大きな進歩について概説する。
我々は、既存のPLMを異なる入力データに適応させ、生成したテキストの特別な特性を満たす方法について論じる。
論文 参考訳(メタデータ) (2021-05-21T12:27:44Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。