論文の概要: Efficient Long-Text Understanding with Short-Text Models
- arxiv url: http://arxiv.org/abs/2208.00748v1
- Date: Mon, 1 Aug 2022 11:14:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 12:42:29.372837
- Title: Efficient Long-Text Understanding with Short-Text Models
- Title(参考訳): 短文モデルを用いた効率的な長文理解
- Authors: Maor Ivgi, Uri Shaham, Jonathan Berant
- Abstract要約: SLEDは、バトルテストされた短文事前訓練されたLMを再利用し活用する、長いシーケンスを処理するための単純なアプローチである。
入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する。
SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
- 参考スコア(独自算出の注目度): 38.8375175429553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based pretrained language models (LMs) are ubiquitous across
natural language understanding, but cannot be applied to long sequences such as
stories, scientific articles and long documents, due to their quadratic
complexity. While a myriad of efficient transformer variants have been
proposed, they are typically based on custom implementations that require
expensive pretraining from scratch. In this work, we propose SLED:
SLiding-Encoder and Decoder, a simple approach for processing long sequences
that re-uses and leverages battle-tested short-text pretrained LMs.
Specifically, we partition the input into overlapping chunks, encode each with
a short-text LM encoder and use the pretrained decoder to fuse information
across chunks (fusion-in-decoder). We illustrate through controlled experiments
that SLED offers a viable strategy for long text understanding and evaluate our
approach on SCROLLS, a benchmark with seven datasets across a wide range of
language understanding tasks. We find that SLED is competitive with specialized
models that are up to 50x larger and require a dedicated and expensive
pretraining step.
- Abstract(参考訳): トランスフォーマティブに基づく事前学習言語モデル(lms)は自然言語理解において普遍的であるが、二次的な複雑さのため、物語、科学記事、長い文書といった長いシーケンスに適用できない。
多数の効率的な変圧器が提案されているが、これらは通常、スクラッチから高価な事前訓練を必要とするカスタム実装に基づいている。
本研究では,sledle: slide-encoder と decoder を提案する。sledle: slide-encoder と decoder は,戦闘でテストされたショートテキストプリトレーニング lms を再利用し活用する,長いシーケンスを処理する単純なアプローチである。
具体的には、入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する(fusion-in-decoder)。
我々は、SLEDが長いテキスト理解のための実行可能な戦略を提供し、SCROLLS(SCROLLS)に対する我々のアプローチを評価するための制御された実験を通して説明する。
SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
関連論文リスト
- Text-Conditioned Resampler For Long Form Video Understanding [101.7267777444705]
タスクの長いビデオシーケンスを処理するために,テキスト条件付きビデオリサンプラー(TCR)モジュールを提案する。
TCRは、テキスト条件が与えられたビデオから関連する視覚的特徴をローカライズし、テキスト応答を生成するために大きな言語モデルを提供する。
軽量な設計とクロスアテンションの使用により、TCRは100フレーム以上を一度に処理できるため、以前の作品よりもずっと長いビデオのチャンクを使用することができる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - Extending Context Window of Large Language Models via Semantic
Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。
本稿では,テキストを6~8倍長大に一般化するセマンティック圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:04:33Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language
Models [88.19189563759942]
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
パラメータの更新がないため、2Kまたは4Kのセグメントで事前訓練されたLLMは、パープレキシティを維持しながら最大2億の入力を一般化することができる。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - In-context Autoencoder for Context Compression in a Large Language Model [74.9807417009054]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - ConvFiT: Conversational Fine-Tuning of Pretrained Language Models [42.7160113690317]
大規模なテキストコレクションに事前訓練されたトランスフォーマーベース言語モデル(LM)は、豊富なセマンティック知識を保存できることが証明されている。
本稿では,任意の事前学習したLMをユニバーサルな会話エンコーダに変換する,シンプルで効率的な2段階の手順であるConvFiTを提案する。
論文 参考訳(メタデータ) (2021-09-21T12:16:56Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - Efficient Wait-k Models for Simultaneous Machine Translation [46.01342928010307]
同時機械翻訳は、入力シーケンス全体が利用可能になる前に出力生成を開始することで構成される。
Wait-kデコーダは、この問題に対してシンプルだが効率的なアプローチを提供する。
IWSLTデータセットを用いた音声コーパスの低リソース設定におけるwait-k復号の動作について検討する。
論文 参考訳(メタデータ) (2020-05-18T11:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。