論文の概要: Efficient Long-Text Understanding with Short-Text Models
- arxiv url: http://arxiv.org/abs/2208.00748v1
- Date: Mon, 1 Aug 2022 11:14:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 12:42:29.372837
- Title: Efficient Long-Text Understanding with Short-Text Models
- Title(参考訳): 短文モデルを用いた効率的な長文理解
- Authors: Maor Ivgi, Uri Shaham, Jonathan Berant
- Abstract要約: SLEDは、バトルテストされた短文事前訓練されたLMを再利用し活用する、長いシーケンスを処理するための単純なアプローチである。
入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する。
SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
- 参考スコア(独自算出の注目度): 38.8375175429553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based pretrained language models (LMs) are ubiquitous across
natural language understanding, but cannot be applied to long sequences such as
stories, scientific articles and long documents, due to their quadratic
complexity. While a myriad of efficient transformer variants have been
proposed, they are typically based on custom implementations that require
expensive pretraining from scratch. In this work, we propose SLED:
SLiding-Encoder and Decoder, a simple approach for processing long sequences
that re-uses and leverages battle-tested short-text pretrained LMs.
Specifically, we partition the input into overlapping chunks, encode each with
a short-text LM encoder and use the pretrained decoder to fuse information
across chunks (fusion-in-decoder). We illustrate through controlled experiments
that SLED offers a viable strategy for long text understanding and evaluate our
approach on SCROLLS, a benchmark with seven datasets across a wide range of
language understanding tasks. We find that SLED is competitive with specialized
models that are up to 50x larger and require a dedicated and expensive
pretraining step.
- Abstract(参考訳): トランスフォーマティブに基づく事前学習言語モデル(lms)は自然言語理解において普遍的であるが、二次的な複雑さのため、物語、科学記事、長い文書といった長いシーケンスに適用できない。
多数の効率的な変圧器が提案されているが、これらは通常、スクラッチから高価な事前訓練を必要とするカスタム実装に基づいている。
本研究では,sledle: slide-encoder と decoder を提案する。sledle: slide-encoder と decoder は,戦闘でテストされたショートテキストプリトレーニング lms を再利用し活用する,長いシーケンスを処理する単純なアプローチである。
具体的には、入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する(fusion-in-decoder)。
我々は、SLEDが長いテキスト理解のための実行可能な戦略を提供し、SCROLLS(SCROLLS)に対する我々のアプローチを評価するための制御された実験を通して説明する。
SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
関連論文リスト
- E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning [20.660297311025417]
E2LLM (Encodergated Large Language Models) は「不可能な三角形」を効果的にナビゲートする新しい手法である。
この手法では、長いコンテキストをチャンクに分割し、事前訓練されたテキストエンコーダを介してベクターに圧縮し、アダプタを使用してこれらの表現をデコーダのみのLLMで整列させる。
実験により、E2LLMは、事前訓練されたモデルとの効率、性能、互換性のバランスを保ちながら、長期コンテキストシナリオにおいて優れた性能を達成することが示された。
論文 参考訳(メタデータ) (2024-09-10T17:44:35Z) - Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer [1.728027753702854]
長い文脈能力を持つ大規模言語モデル(LLM)は、自然言語処理や計算生物学における複雑なタスクに不可欠なものである。
長文LLMを効率的に学習するためのFPDT(Fully Pipelined Distributed Transformer)を提案する。
GPTモデルとLlamaモデルでは、同じハードウェア上でトレーニング可能なシーケンス長が16倍に向上する。
論文 参考訳(メタデータ) (2024-08-30T02:44:26Z) - mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - ConvFiT: Conversational Fine-Tuning of Pretrained Language Models [42.7160113690317]
大規模なテキストコレクションに事前訓練されたトランスフォーマーベース言語モデル(LM)は、豊富なセマンティック知識を保存できることが証明されている。
本稿では,任意の事前学習したLMをユニバーサルな会話エンコーダに変換する,シンプルで効率的な2段階の手順であるConvFiTを提案する。
論文 参考訳(メタデータ) (2021-09-21T12:16:56Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。