論文の概要: Jump to Conclusions: Short-Cutting Transformers With Linear
Transformations
- arxiv url: http://arxiv.org/abs/2303.09435v1
- Date: Thu, 16 Mar 2023 16:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:45:38.050493
- Title: Jump to Conclusions: Short-Cutting Transformers With Linear
Transformations
- Title(参考訳): 結論へのジャンプ: 線形変換を備えたショートカッティング変換器
- Authors: Alexander Yom Din, Taelin Karidi, Leshem Choshen, Mor Geva
- Abstract要約: トランスフォーマーベースの言語モデル(LM)は、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。
線形変換を用いた簡単な鋳造法を提案する。
提案手法は,隠れ表現を検査する一般的な手法よりも正確な近似を導出することを示す。
- 参考スコア(独自算出の注目度): 76.04020332394467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models (LMs) create hidden representations of
their inputs at every layer, but only use final-layer representations for
prediction. This obscures the internal decision-making process of the model and
the utility of its intermediate representations. One way to elucidate this is
to cast the hidden representations as final representations, bypassing the
transformer computation in-between. In this work, we suggest a simple method
for such casting, by using linear transformations. We show that our approach
produces more accurate approximations than the prevailing practice of
inspecting hidden representations from all layers in the space of the final
layer. Moreover, in the context of language modeling, our method allows
"peeking" into early layer representations of GPT-2 and BERT, showing that
often LMs already predict the final output in early layers. We then demonstrate
the practicality of our method to recent early exit strategies, showing that
when aiming, for example, at retention of 95% accuracy, our approach saves
additional 7.9% layers for GPT-2 and 5.4% layers for BERT, on top of the
savings of the original approach. Last, we extend our method to linearly
approximate sub-modules, finding that attention is most tolerant to this
change.
- Abstract(参考訳): トランスフォーマーベースの言語モデル(LM)は、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。
これは、モデルの内部意思決定プロセスとその中間表現の有用性を曖昧にする。
これを解明する一つの方法は、隠れた表現を最終的な表現としてキャストし、中間のトランスフォーマー計算をバイパスすることである。
本研究では, 線形変換を用いた簡単な鋳造法を提案する。
提案手法は, 最終層空間のすべての層から隠れた表現を検査する手法よりも, より正確な近似を導出することを示す。
さらに, 言語モデリングの文脈では, gpt-2 と bert の初期層表現を「覗き込む」ことが可能であり, lms が初期層における最終出力を既に予測していることが多い。
次に,近年の早期出口戦略に対する本手法の実践性を実証し,例えば95%の精度維持を目指すと,従来のアプローチの節約に加えて,GPT-2では7.9%,BERTでは5.4%の追加レイヤを節約できることを示した。
最後に、我々の手法を線形に近似した部分加群に拡張し、この変化に対して注意が最も寛容であることを確かめる。
関連論文リスト
- Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Self-improving Multiplane-to-layer Images for Novel View Synthesis [3.9901365062418312]
本稿では,任意の前向きシーンに一般化する軽量ノベルビュー合成法を提案する。
まず、フロント並列半透明平面を用いてシーンを表現し、その後、エンド・ツー・エンドで変形可能なレイヤに変換する。
本手法では,新しいシーンが処理された場合の微調整を必要とせず,制限なく任意の数のビューを処理できる。
論文 参考訳(メタデータ) (2022-10-04T13:27:14Z) - FedAvg with Fine Tuning: Local Updates Lead to Representation Learning [54.65133770989836]
Federated Averaging (FedAvg)アルゴリズムは、クライアントノードでのいくつかのローカルな勾配更新と、サーバでのモデル平均更新の交互化で構成されている。
我々は、FedAvgの出力の一般化の背景には、クライアントのタスク間の共通データ表現を学習する能力があることを示す。
異種データを用いたフェデレーション画像分類におけるFedAvgの表現学習能力を示す実証的証拠も提供する。
論文 参考訳(メタデータ) (2022-05-27T00:55:24Z) - Transformer Feed-Forward Layers Build Predictions by Promoting Concepts
in the Vocabulary Space [49.029910567673824]
トランスフォーマーベース言語モデル(LM)は現代のNLPの中核にあるが、内部予測構築プロセスは不透明であり、ほとんど理解されていない。
我々は、フィードフォワードネットワーク(FFN)層の動作をリバースエンジニアリングすることで、この基盤となる予測プロセスの公開に向けて大きな一歩を踏み出した。
論文 参考訳(メタデータ) (2022-03-28T12:26:00Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。