論文の概要: Zebra: Extending Context Window with Layerwise Grouped Local-Global
Attention
- arxiv url: http://arxiv.org/abs/2312.08618v1
- Date: Thu, 14 Dec 2023 02:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:09:08.316791
- Title: Zebra: Extending Context Window with Layerwise Grouped Local-Global
Attention
- Title(参考訳): zebra: 階層型グループ化されたローカルグローバルアテンションによるコンテキストウィンドウの拡張
- Authors: Kaiqiang Song, Xiaoyang Wang, Sangwoo Cho, Xiaoman Pan, Dong Yu
- Abstract要約: 本稿では,広範囲なテキストシーケンスの処理と理解において,LLM(Large Language Models)の能力を高めるための新しいアプローチを提案する。
本稿では,Zebraと呼ばれる新しいモデルアーキテクチャを提案する。
我々のモデルは、ゼブラの交互ストライプに似ているが、局所的およびグローバルな注意層をバランスさせ、計算要求とメモリ消費を大幅に削減する。
- 参考スコア(独自算出の注目度): 44.67973028541842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel approach to enhance the capabilities of Large
Language Models (LLMs) in processing and understanding extensive text
sequences, a critical aspect in applications requiring deep comprehension and
synthesis of large volumes of information. Recognizing the inherent challenges
in extending the context window for LLMs, primarily built on Transformer
architecture, we propose a new model architecture, referred to as Zebra. This
architecture efficiently manages the quadratic time and memory complexity
issues associated with full attention in the Transformer by employing grouped
local-global attention layers. Our model, akin to a zebra's alternating
stripes, balances local and global attention layers, significantly reducing
computational requirements and memory consumption. Comprehensive experiments,
including pretraining from scratch, continuation of long context adaptation
training, and long instruction tuning, are conducted to evaluate the Zebra's
performance. The results show that Zebra achieves comparable or superior
performance on both short and long sequence benchmarks, while also enhancing
training and inference efficiency.
- Abstract(参考訳): 本稿では,大規模なテキストシーケンスの処理と理解において,大規模言語モデル(llm)の能力を向上させるための新しい手法を提案する。
主に Transformer アーキテクチャ上に構築された LLM のコンテキストウィンドウの拡張における固有の課題を認識し,Zebra と呼ばれる新しいモデルアーキテクチャを提案する。
本アーキテクチャは、グループ化された局所的グローバルアテンション層を用いて、トランスフォーマにおける全アテンションに関連する二次時間およびメモリ複雑性問題を効率的に管理する。
私たちのモデルは、zebraの交互のストライプに似ており、ローカルおよびグローバルアテンション層をバランスさせ、計算要求とメモリ消費を大幅に削減します。
ゼブラの性能を評価するために,スクラッチからの事前学習,長文適応訓練の継続,長文調律などの総合的な実験を行った。
その結果、Zebraはショートシーケンスとロングシーケンスのベンチマークで同等または優れたパフォーマンスを実現し、トレーニングと推論の効率も向上した。
関連論文リスト
- Advancing Transformer Architecture in Long-Context Large Language
Models: A Comprehensive Survey [18.930417261395906]
トランスフォーマーベースの大規模言語モデル(LLM)は、知識ベース、ヒューマンインタフェース、動的エージェントなど様々な分野に適用されている。
本稿では,トランスフォーマーをベースとしたLLMアーキテクチャの最近の進歩について,LLMの長期的コンテキスト能力の向上を目的とした調査を行う。
論文 参考訳(メタデータ) (2023-11-21T04:59:17Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - Exploiting Explainable Metrics for Augmented SGD [43.00691899858408]
最適化下での学習が実際にどのように機能するか、また、特定の戦略が他の方法よりも優れている理由について、未解決の疑問がいくつかある。
ネットワーク層内の冗長な情報を計測する新しい説明可能性指標を提案する。
次に、これらの指標を利用して、各レイヤの学習率を適応的に調整し、一般化性能を向上させることにより、グラディエント・ディフレッシュ(SGD)を増大させる。
論文 参考訳(メタデータ) (2022-03-31T00:16:44Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z) - Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文 参考訳(メタデータ) (2020-06-20T09:06:27Z) - Deep Reinforced Self-Attention Masks for Abstractive Summarization
(DR.SAS) [0.0]
本稿では,CNN/DMデータ集合に基づく抽象的な要約問題に対処する新しいアーキテクチャ手法を提案する。
要約品質を向上させるためにトランスフォーマーの微妙な注意を学習する限界を検証した。
我々のモデルは、ROUGEの報酬よりも最適化されているため、より抽出的かつ実効的だが、詳細はコヒーレントである傾向にある。
論文 参考訳(メタデータ) (2019-12-30T01:32:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。