論文の概要: Enhanced Computationally Efficient Long LoRA Inspired Perceiver Architectures for Auto-Regressive Language Modeling
- arxiv url: http://arxiv.org/abs/2412.06106v1
- Date: Sun, 08 Dec 2024 23:41:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:46.215264
- Title: Enhanced Computationally Efficient Long LoRA Inspired Perceiver Architectures for Auto-Regressive Language Modeling
- Title(参考訳): 自己回帰型言語モデリングのための計算効率の良いLong LoRAインスパイアされた知覚アーキテクチャ
- Authors: Kaleel Mahmood, Shaoyi Huang,
- Abstract要約: Transformer アーキテクチャは自然言語処理分野に革命をもたらし、Large Language Models (LLM) のバックボーンとなっている。
Transformerアーキテクチャの課題の1つは、長いシーケンス長の効率的な処理を禁止する注意機構の二次的な複雑さである。
この点において重要な研究の1つは、計算の複雑さを減らしながら優れた性能を示したPerceiverクラスのアーキテクチャである。
- 参考スコア(独自算出の注目度): 2.9228447484533695
- License:
- Abstract: The Transformer architecture has revolutionized the Natural Language Processing field and is the backbone of Large Language Models (LLMs). The Transformer uses the attention mechanism that computes the pair-wise similarity between its input tokens to produce latent vectors that are able to understand the semantic meaning of the input text. One of the challenges in the Transformer architecture is the quadratic complexity of the attention mechanism that prohibits the efficient processing of long sequence lengths. While many recent research works have attempted to provide a reduction from $O(n^2)$ time complexity of attention to semi-linear complexity, it remains an unsolved problem in the sense of maintaining a high performance when such complexity is reduced. One of the important works in this respect is the Perceiver class of architectures that have demonstrated excellent performance while reducing the computation complexity. In this paper, we use the PerceiverAR that was proposed for Auto-Regressive modeling as a baseline, and provide three different architectural enhancements to it with varying computation overhead tradeoffs. Inspired by the recently proposed efficient attention computation approach of Long-LoRA, we then present an equally efficient Perceiver-based architecture (termed as Long LoRA Pereceiver - LLP) that can be used as the base architecture in LLMs instead of just a fine-tuning add-on. Our results on different benchmarks indicate impressive improvements compared to recent Transformer based models.
- Abstract(参考訳): Transformerアーキテクチャは自然言語処理分野に革命をもたらし、Large Language Models (LLM) のバックボーンとなっている。
Transformerは、入力トークン間のペアの類似性を計算し、入力テキストの意味を理解できる潜在ベクトルを生成する。
Transformerアーキテクチャの課題の1つは、長いシーケンス長の効率的な処理を禁止する注意機構の二次的な複雑さである。
近年の多くの研究は、注意力のO(n^2)$時間複雑さから半線形複雑性への還元を試みているが、そのような複雑さが減少するときに高い性能を維持するという意味では未解決の問題である。
この点において重要な研究の1つは、計算の複雑さを減らしながら優れた性能を示したPerceiverクラスのアーキテクチャである。
本稿では,自動回帰モデリングのために提案されたPerceiverARをベースラインとして使用し,計算オーバーヘッドのトレードオフの異なる3つのアーキテクチャ拡張を提供する。
最近提案されたLong-LoRAの効率的な注意計算手法に着想を得て,Long LoRA Pereceiver - LLPと呼ばれるPerceiverをベースとしたアーキテクチャ(Long LoRA Pereceiver - LLP)を提案する。
最近のTransformerモデルと比較すると,ベンチマークの結果は印象的な改善であった。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Autoregressive + Chain of Thought = Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer [29.970200877158764]
ニューラルモデルにおけるリカレント構造が推論能力と計算可能性に与える影響について検討する。
我々は、CoTアプローチが繰り返し計算を模倣し、自己回帰と再発の間のブリッジとして機能する方法について光を当てた。
論文 参考訳(メタデータ) (2024-09-14T00:30:57Z) - EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration [1.741980945827445]
教師なし3次元画像登録のためのトランスフォーマーベースのアーキテクチャであるnameを提示する。
nameは、平面ベースのアテンションメカニズムを通じて3Dボリュームのローカルとグローバルのアテンションをバランスさせ、Hi-Resトークン化戦略とマージ操作を使用する。
論文 参考訳(メタデータ) (2024-03-16T22:01:55Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Hyperparameter optimization with REINFORCE and Transformers [2.1404235519012076]
強化学習はニューラルアーキテクチャサーチ(NAS)の有望な結果を得た
ポリシーネットワークをモデル化するために,単純化されたTransformerブロックを用いることで,その性能が向上することを示す。
論文 参考訳(メタデータ) (2020-06-01T13:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。