論文の概要: Jump to Conclusions: Short-Cutting Transformers With Linear Transformations
- arxiv url: http://arxiv.org/abs/2303.09435v2
- Date: Tue, 18 Jun 2024 19:58:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 09:10:16.304492
- Title: Jump to Conclusions: Short-Cutting Transformers With Linear Transformations
- Title(参考訳): 結論へのジャンプ: 線形変換を備えたショートカッティング変換器
- Authors: Alexander Yom Din, Taelin Karidi, Leshem Choshen, Mor Geva,
- Abstract要約: トランスフォーマーベースの言語モデルは、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。
これは、モデルの内部決定過程と、その中間表現の有用性を曖昧にする。
線形変換を用いた簡単な鋳造法を提案する。
- 参考スコア(独自算出の注目度): 60.37563766047492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models create hidden representations of their inputs at every layer, but only use final-layer representations for prediction. This obscures the internal decision-making process of the model and the utility of its intermediate representations. One way to elucidate this is to cast the hidden representations as final representations, bypassing the transformer computation in-between. In this work, we suggest a simple method for such casting, using linear transformations. This approximation far exceeds the prevailing practice of inspecting hidden representations from all layers, in the space of the final layer. Moreover, in the context of language modeling, our method produces more accurate predictions from hidden layers, across various model scales, architectures, and data distributions. This allows "peeking" into intermediate representations, showing that GPT-2 and BERT often predict the final output already in early layers. We then demonstrate the practicality of our method to recent early exit strategies, showing that when aiming, for example, at retention of 95% accuracy, our approach saves additional 7.9% layers for GPT-2 and 5.4% layers for BERT. Last, we extend our method to linearly approximate sub-modules, finding that attention is most tolerant to this change. Our code and learned mappings are publicly available at https://github.com/sashayd/mat.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。
これは、モデルの内部決定過程と、その中間表現の有用性を曖昧にする。
これを解明する一つの方法は、隠された表現を最終表現としてキャストし、変換器の計算を相互にバイパスすることである。
本研究では, 線形変換を用いた簡単な鋳造法を提案する。
この近似は、最終層の空間において、すべての層から隠れた表現を検査する一般的な慣習をはるかに超えている。
さらに、言語モデリングの文脈において、本手法は、様々なモデルスケール、アーキテクチャ、データ分布にわたって、隠れた層からより正確な予測を生成する。
これにより、中間表現を覗き込むことができ、GPT-2 と BERT が初期層で既に最終的な出力を予測していることが示される。
次に,最近の早期出口戦略に対する本手法の実用性を実証し,例えば95%の精度維持を目指すと,GPT-2では7.9%,BERTでは5.4%の削減が期待できることを示した。
最後に、我々の手法を線形に近似した部分加群に拡張し、この変化に対して注意が最も寛容であることを確かめる。
私たちのコードと学習したマッピングはhttps://github.com/sashayd/mat.comで公開されています。
関連論文リスト
- You Do Not Fully Utilize Transformer's Representation Capacity [4.753535328327317]
RNNとは対照的に、Transformerはすべての以前のトークンに直接参加できる。
標準変換器は直前の層からの表現のみを使用する。
モデル全体のメモリフットプリントを保存しつつ,表現能力を拡大するシンプルな,かつ強力なアプローチであるLayer-Integrated Memory(LIMe)を導入する。
論文 参考訳(メタデータ) (2025-02-13T12:00:50Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Self-improving Multiplane-to-layer Images for Novel View Synthesis [3.9901365062418312]
本稿では,任意の前向きシーンに一般化する軽量ノベルビュー合成法を提案する。
まず、フロント並列半透明平面を用いてシーンを表現し、その後、エンド・ツー・エンドで変形可能なレイヤに変換する。
本手法では,新しいシーンが処理された場合の微調整を必要とせず,制限なく任意の数のビューを処理できる。
論文 参考訳(メタデータ) (2022-10-04T13:27:14Z) - FedAvg with Fine Tuning: Local Updates Lead to Representation Learning [54.65133770989836]
Federated Averaging (FedAvg)アルゴリズムは、クライアントノードでのいくつかのローカルな勾配更新と、サーバでのモデル平均更新の交互化で構成されている。
我々は、FedAvgの出力の一般化の背景には、クライアントのタスク間の共通データ表現を学習する能力があることを示す。
異種データを用いたフェデレーション画像分類におけるFedAvgの表現学習能力を示す実証的証拠も提供する。
論文 参考訳(メタデータ) (2022-05-27T00:55:24Z) - Transformer Feed-Forward Layers Build Predictions by Promoting Concepts
in the Vocabulary Space [49.029910567673824]
トランスフォーマーベース言語モデル(LM)は現代のNLPの中核にあるが、内部予測構築プロセスは不透明であり、ほとんど理解されていない。
我々は、フィードフォワードネットワーク(FFN)層の動作をリバースエンジニアリングすることで、この基盤となる予測プロセスの公開に向けて大きな一歩を踏み出した。
論文 参考訳(メタデータ) (2022-03-28T12:26:00Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。