論文の概要: Adapting Pretrained Text-to-Text Models for Long Text Sequences
- arxiv url: http://arxiv.org/abs/2209.10052v1
- Date: Wed, 21 Sep 2022 00:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:08:56.726056
- Title: Adapting Pretrained Text-to-Text Models for Long Text Sequences
- Title(参考訳): 長文列に対する事前学習型テキスト・テキスト・モデルの適用
- Authors: Wenhan Xiong, Anchit Gupta, Shubham Toshniwal, Yashar Mehdad, Wen-tau
Yih
- Abstract要約: 我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。
長文QAタスク上での競合性能を実現するための長文モデルを構築した。
- 参考スコア(独自算出の注目度): 39.62224414485055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an empirical study of adapting an existing pretrained text-to-text
model for long-sequence inputs. Through a comprehensive study along three axes
of the pretraining pipeline -- model architecture, optimization objective, and
pretraining corpus, we propose an effective recipe to build long-context models
from existing short-context models. Specifically, we replace the full attention
in transformers with pooling-augmented blockwise attention, and pretrain the
model with a masked-span prediction task with spans of varying length. In terms
of the pretraining corpus, we find that using randomly concatenated
short-documents from a large open-domain corpus results in better performance
than using existing long document corpora which are typically limited in their
domain coverage. With these findings, we build a long-context model that
achieves competitive performance on long-text QA tasks and establishes the new
state of the art on five long-text summarization datasets, often outperforming
previous methods with larger model sizes.
- Abstract(参考訳): 本稿では,既存のテキストからテキストへの事前学習モデルを適用した長文入力実験を行う。
モデルアーキテクチャ,最適化目標,事前学習コーパスという,事前学習パイプラインの3つの軸に沿った包括的な研究を通じて,既存の短文モデルから長文モデルを構築するための効果的なレシピを提案する。
具体的には、トランスフォーマーの注意をプール型ブロック回りの注意に置き換え、モデルに様々な長さのマスキングスパン予測タスクをプリトレーニングする。
事前学習コーパスの観点では、大規模なオープンドメインコーパスからランダムに結合したショートドキュメントを使用することで、ドメインカバレッジに制限のある既存の長いドキュメントコーパスよりもパフォーマンスが向上することがわかった。
これらの結果から、長文QAタスク上での競合性能を達成する長文モデルを構築し、5つの長文要約データセット上での技術の新たな状態を確立し、しばしばモデルサイズを大きくした従来の手法よりも優れる。
関連論文リスト
- A Novel LLM-based Two-stage Summarization Approach for Long Dialogues [9.835499880812646]
本研究では,長い文書から情報を分割・凝縮する階層的枠組みを提案する。
凝縮段階は、教師なし生成モデルを用いて凝縮データを生成する。
要約段階は、縮合されたデータ上の抽象的な要約モデルを微調整して最終結果を生成する。
論文 参考訳(メタデータ) (2024-10-09T03:42:40Z) - Summarizing long regulatory documents with a multi-step pipeline [2.2591852560804675]
長い規則文を要約するための2段階アーキテクチャの有効性は、使用するモデルによって異なることを示す。
コンテクスト長の短い抽象エンコーダ・デコーダモデルでは抽出ステップの有効性が異なるが、長文エンコーダ・デコーダモデルでは抽出ステップが性能を悪化させる。
論文 参考訳(メタデータ) (2024-08-19T08:07:25Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - A Survey on Long Text Modeling with Transformers [33.9069167068622]
本稿では,Transformerモデルに基づく長文モデリングの最近の進歩について概説する。
長さ制限を満たすために長い入力を処理し、改良されたTransformerアーキテクチャを設計する方法について論じる。
本稿では,長文モデリングに関わる4つの典型的な応用について述べるとともに,今後の方向性を議論する。
論文 参考訳(メタデータ) (2023-02-28T11:34:30Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。