論文の概要: Jump to Conclusions: Short-Cutting Transformers With Linear
Transformations
- arxiv url: http://arxiv.org/abs/2303.09435v1
- Date: Thu, 16 Mar 2023 16:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:45:38.050493
- Title: Jump to Conclusions: Short-Cutting Transformers With Linear
Transformations
- Title(参考訳): 結論へのジャンプ: 線形変換を備えたショートカッティング変換器
- Authors: Alexander Yom Din, Taelin Karidi, Leshem Choshen, Mor Geva
- Abstract要約: トランスフォーマーベースの言語モデル(LM)は、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。
線形変換を用いた簡単な鋳造法を提案する。
提案手法は,隠れ表現を検査する一般的な手法よりも正確な近似を導出することを示す。
- 参考スコア(独自算出の注目度): 76.04020332394467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models (LMs) create hidden representations of
their inputs at every layer, but only use final-layer representations for
prediction. This obscures the internal decision-making process of the model and
the utility of its intermediate representations. One way to elucidate this is
to cast the hidden representations as final representations, bypassing the
transformer computation in-between. In this work, we suggest a simple method
for such casting, by using linear transformations. We show that our approach
produces more accurate approximations than the prevailing practice of
inspecting hidden representations from all layers in the space of the final
layer. Moreover, in the context of language modeling, our method allows
"peeking" into early layer representations of GPT-2 and BERT, showing that
often LMs already predict the final output in early layers. We then demonstrate
the practicality of our method to recent early exit strategies, showing that
when aiming, for example, at retention of 95% accuracy, our approach saves
additional 7.9% layers for GPT-2 and 5.4% layers for BERT, on top of the
savings of the original approach. Last, we extend our method to linearly
approximate sub-modules, finding that attention is most tolerant to this
change.
- Abstract(参考訳): トランスフォーマーベースの言語モデル(LM)は、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。
これは、モデルの内部意思決定プロセスとその中間表現の有用性を曖昧にする。
これを解明する一つの方法は、隠れた表現を最終的な表現としてキャストし、中間のトランスフォーマー計算をバイパスすることである。
本研究では, 線形変換を用いた簡単な鋳造法を提案する。
提案手法は, 最終層空間のすべての層から隠れた表現を検査する手法よりも, より正確な近似を導出することを示す。
さらに, 言語モデリングの文脈では, gpt-2 と bert の初期層表現を「覗き込む」ことが可能であり, lms が初期層における最終出力を既に予測していることが多い。
次に,近年の早期出口戦略に対する本手法の実践性を実証し,例えば95%の精度維持を目指すと,従来のアプローチの節約に加えて,GPT-2では7.9%,BERTでは5.4%の追加レイヤを節約できることを示した。
最後に、我々の手法を線形に近似した部分加群に拡張し、この変化に対して注意が最も寛容であることを確かめる。
関連論文リスト
- Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Towards Robust Low-Resource Fine-Tuning with Multi-View Compressed
Representations [51.759605118425526]
事前訓練された言語モデル(PLM)の微調整は、低リソースのシナリオで過度に適合する傾向がある。
オーバーフィッティングを減らすために,PLMの隠れ表現を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:39:29Z) - Max Pooling with Vision Transformers reconciles class and shape in
weakly supervised semantic segmentation [0.0]
本研究は,CAMをベースとせず,ViT-PCM (ViT Patch-Class Mapping) と呼ばれる新しいWSSS手法を提案する。
当社のモデルは,PascalVOC 2012 $val$setで69.3%のmIoUを達成した,ベースライン擬似マスク(BPM)の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2022-10-31T15:32:23Z) - Self-improving Multiplane-to-layer Images for Novel View Synthesis [3.9901365062418312]
本稿では,任意の前向きシーンに一般化する軽量ノベルビュー合成法を提案する。
まず、フロント並列半透明平面を用いてシーンを表現し、その後、エンド・ツー・エンドで変形可能なレイヤに変換する。
本手法では,新しいシーンが処理された場合の微調整を必要とせず,制限なく任意の数のビューを処理できる。
論文 参考訳(メタデータ) (2022-10-04T13:27:14Z) - Transformer Feed-Forward Layers Build Predictions by Promoting Concepts
in the Vocabulary Space [49.029910567673824]
トランスフォーマーベース言語モデル(LM)は現代のNLPの中核にあるが、内部予測構築プロセスは不透明であり、ほとんど理解されていない。
我々は、フィードフォワードネットワーク(FFN)層の動作をリバースエンジニアリングすることで、この基盤となる予測プロセスの公開に向けて大きな一歩を踏み出した。
論文 参考訳(メタデータ) (2022-03-28T12:26:00Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Unifying Global-Local Representations in Salient Object Detection with
Transformer [40.64749474945011]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。