論文の概要: Transformer Layers as Painters
- arxiv url: http://arxiv.org/abs/2407.09298v2
- Date: Mon, 5 Aug 2024 15:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 20:28:55.162884
- Title: Transformer Layers as Painters
- Title(参考訳): 絵画としての変圧器層
- Authors: Qi Sun, Marc Pickett, Aakash Kumar Nain, Llion Jones,
- Abstract要約: 事前学習したトランスの下位層と最終層は中間層と異なるが,中間層は驚くほど均一であることを示す。
また、いくつかの問題のクラスは、レイヤのスキップ、レイヤのトレーニング方法と異なる順序での実行、レイヤの並列実行に対して堅牢性が必要であることも示しています。
我々の観察では、凍結した事前学習モデルでさえ、レイヤをスキップしたり、並列にレイヤを走らせることで、遅延の正確さを優雅に交換できる可能性が示唆されている。
- 参考スコア(独自算出の注目度): 16.43731831488477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their nearly universal adoption for large language models, the internal workings of transformers are not well understood. We aim to better understand the impact of removing or reorganizing information throughout the layers of a pretrained transformer. Such an understanding could both yield better usage of existing models as well as to make architectural improvements to produce new variants. We present a series of empirical studies on frozen models that show that the lower and final layers of pretrained transformers differ from middle layers, but that middle layers have a surprising amount of uniformity. We further show that some classes of problems have robustness to skipping layers, running the layers in an order different from how they were trained, or running the layers in parallel. Our observations suggest that even frozen pretrained models may gracefully trade accuracy for latency by skipping layers or running layers in parallel.
- Abstract(参考訳): 大きな言語モデルにほぼ普遍的に採用されているにもかかわらず、トランスフォーマーの内部動作はよく理解されていない。
我々は、事前訓練されたトランスフォーマーのレイヤ全体を通して、情報の削除や再編成の影響をよりよく理解することを目的としている。
このような理解は、既存モデルのより良い利用と、新しいバリエーションを生み出すためのアーキテクチャの改善をもたらす可能性がある。
本研究では, 凍結モデルに関する実験的検討を行い, 未学習変圧器の下部層と最終層は中間層と異なるが, 中間層は驚くほど均一であることを示した。
さらに、問題のクラスによっては、レイヤをスキップしたり、トレーニング方法と異なる順序でレイヤを実行したり、並列にレイヤを実行することに対して堅牢性があることも示しています。
我々の観察では、凍結した事前学習モデルでさえ、レイヤをスキップしたり、並列にレイヤを走らせることで、遅延の正確さを優雅に交換できる可能性が示唆されている。
関連論文リスト
- How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression [19.64743851296488]
本研究では、疎線形回帰問題を考察し、訓練されたマルチヘッドトランスがコンテキスト内学習を行う方法を検討する。
マルチヘッドの利用は層間における異なるパターンを示すことが実験的に明らかになった。
このような前処理列最適化アルゴリズムは、直交勾配勾配とリッジ回帰アルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-08-08T15:33:02Z) - Uncovering Layer-Dependent Activation Sparsity Patterns in ReLU Transformers [2.1572258716881905]
我々は、トレーニングの過程でトークンレベルのスパーシリティがどのように進化し、より広いスパーシリティパターンにどのように結びつくかを探る。
特に、ネットワークの第一層と最後の層は、多くの点で、空間性との関係を逆転させることを実証する。
さらに、ReLU次元の「オフ」現象を探求し、「ニューロン死」がトレーニングのダイナミクスによって引き起こされていることを示す証拠を示す。
論文 参考訳(メタデータ) (2024-07-10T17:10:10Z) - LayerShuffle: Enhancing Robustness in Vision Transformers by Randomizing Layer Execution Order [10.362659730151591]
視覚変換器はテスト時に任意の層の実行順序に適応可能であることを示す。
また、トレーニングされたモデル同士をランダムにマージすることで、機能的な「フランケンシュタイン」モデルが得られることもわかりました。
論文 参考訳(メタデータ) (2024-07-05T13:54:15Z) - What Matters in Transformers? Not All Attention is Needed [7.857824255138334]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々なタスクで有望なパフォーマンスを示している。
また、冗長なアーキテクチャを導入し、現実世界のデプロイメントに効率上の課題を提起する。
我々は、類似度に基づくメトリクスを用いて、ブロック、アテンション層を含むトランスフォーマー内の異なるモジュール間の冗長性を調べる。
論文 参考訳(メタデータ) (2024-06-22T08:41:48Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers [22.1372572833618]
視覚変換器のための新規な数ショット特徴蒸留手法を提案する。
まず、既存の視覚変換器の断続的な層から、より浅いアーキテクチャ(学生)へと重みをコピーする。
次に、Low-Rank Adaptation (LoRA) の強化版を用いて、数ショットのシナリオで学生に知識を抽出する。
論文 参考訳(メタデータ) (2024-04-14T18:57:38Z) - Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文 参考訳(メタデータ) (2023-03-09T13:42:04Z) - SiamTrans: Zero-Shot Multi-Frame Image Restoration with Pre-Trained
Siamese Transformers [95.57829796484472]
不要な閉塞要素を除去する新しいゼロショット多フレーム画像復元法を提案する。
トランスフォーマーの事前訓練、ゼロショットの復元、ハードパッチの改良の3段階がある。
ゼロショット画像復元のために、シームズ変換器、エンコーダ、デコーダによって構築されたSiamTransと呼ばれる新しいモデルを設計する。
論文 参考訳(メタデータ) (2021-12-17T10:42:39Z) - LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。
次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。
提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文 参考訳(メタデータ) (2021-06-22T13:20:14Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - Reservoir Transformer [89.28052130103345]
機械学習における古き良きアイデアに触発され、通常のトランスフォーマー層と交差する非線形の「保存層」を探究した。
様々な機械翻訳や(マッシュアップされた)言語モデリングタスクにおいて、コンバージェンスまでのウォールクロック計算時間の改善と全体的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-12-30T05:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。