論文の概要: Adaptive Large Language Models By Layerwise Attention Shortcuts
- arxiv url: http://arxiv.org/abs/2409.10870v1
- Date: Tue, 17 Sep 2024 03:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 18:06:56.138991
- Title: Adaptive Large Language Models By Layerwise Attention Shortcuts
- Title(参考訳): 階層的注意ショートカットによる適応型大規模言語モデル
- Authors: Prateek Verma, Mert Pilanci,
- Abstract要約: LLMライクなセットアップにより、最終レイヤはアテンションメカニズムを通じて適合すると考えられるすべての中間レイヤに出席することができる。
音響トークン,自然言語,シンボリック音楽の4つの異なるデータセットを紹介し,GPTアーキテクチャの優れた性能を実現する。
- 参考スコア(独自算出の注目度): 46.76681147411957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architectures are the backbone of the modern AI revolution. However, they are based on simply stacking the same blocks in dozens of layers and processing information sequentially from one block to another. In this paper, we propose to challenge this and introduce adaptive computations for LLM-like setups, which allow the final layer to attend to all of the intermediate layers as it deems fit through the attention mechanism, thereby introducing computational \textbf{attention shortcuts}. These shortcuts can thus make the architecture depth and context adaptive. We showcase four different datasets, namely acoustic tokens, natural language, and symbolic music, and we achieve superior performance for GPT-like architecture. We give evidence via attention maps that the models learn complex dependencies across layers that are adaptive in context and depth depending on the input tokens.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、現代のAI革命のバックボーンである。
しかし、それらは単に同じブロックを数十の層に積み重ねて、あるブロックから別のブロックへ順次情報を処理することに基づいている。
本稿では,この課題に対処し,LLMライクなセットアップの適応計算を導入し,アテンション機構を通じて最終層が全ての中間層に適合すると仮定し,計算用bf{attention shortcuts} を導入することを提案する。
これらのショートカットはアーキテクチャの深さとコンテキストを適応させることができる。
音響トークン,自然言語,シンボリック音楽の4つの異なるデータセットを紹介し,GPTアーキテクチャの優れた性能を実現する。
モデルが入力トークンに応じてコンテキストと深さに適応する層間で複雑な依存関係を学習する証拠を注意マップで示します。
関連論文リスト
- Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling [4.190836962132713]
本稿では,従来の注意機構の2次複雑さに対処する新しいアーキテクチャであるOrchidを紹介する。
このアーキテクチャのコアには、新しいデータ依存のグローバル畳み込み層があり、入力シーケンスに条件付きカーネルを文脈的に適応させる。
言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。
論文 参考訳(メタデータ) (2024-02-28T17:36:45Z) - Language Models as Hierarchy Encoders [22.03504018330068]
階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
論文 参考訳(メタデータ) (2024-01-21T02:29:12Z) - Equivariant Architectures for Learning in Deep Weight Spaces [54.61765488960555]
重み空間の学習のための新しいネットワークアーキテクチャを提案する。
入力として、事前訓練された不変量の重みとバイアスの連結をとる。
これらのレイヤを3つの基本的な操作で実装する方法を示す。
論文 参考訳(メタデータ) (2023-01-30T10:50:33Z) - Adaptively Clustering Neighbor Elements for Image-Text Generation [78.82346492527425]
我々はtextbfACF と呼ばれるトランスフォーマーに基づく新しい画像テキスト生成モデルを提案する。
ACFは、視覚パッチをオブジェクト領域と言語単語に適応的にクラスタリングし、暗黙的にオブジェクト・フレーズのアライメントを学習する。
実験の結果,ほとんどのSOTAキャプションやVQAモデルよりも優れたACFの有効性が示された。
論文 参考訳(メタデータ) (2023-01-05T08:37:36Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Differentiable Architecture Pruning for Transfer Learning [6.935731409563879]
本研究では,与えられた大規模モデルからサブアーキテクチャを抽出するための勾配に基づくアプローチを提案する。
我々のアーキテクチャ・プルーニング・スキームは、異なるタスクを解くために再訓練を成功させることができるトランスファー可能な新しい構造を生成する。
理論的収束保証を提供し、実データ上で提案した伝達学習戦略を検証する。
論文 参考訳(メタデータ) (2021-07-07T17:44:59Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。