論文の概要: You Do Not Fully Utilize Transformer's Representation Capacity
- arxiv url: http://arxiv.org/abs/2502.09245v1
- Date: Thu, 13 Feb 2025 12:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:09.694561
- Title: You Do Not Fully Utilize Transformer's Representation Capacity
- Title(参考訳): トランスフォーマーの表現能力をフル活用しない
- Authors: Gleb Gerasimov, Yaroslav Aksenov, Nikita Balagansky, Viacheslav Sinii, Daniil Gavrilov,
- Abstract要約: RNNとは対照的に、Transformerはすべての以前のトークンに直接参加できる。
標準変換器は直前の層からの表現のみを使用する。
モデル全体のメモリフットプリントを保存しつつ,表現能力を拡大するシンプルな,かつ強力なアプローチであるLayer-Integrated Memory(LIMe)を導入する。
- 参考スコア(独自算出の注目度): 4.753535328327317
- License:
- Abstract: In contrast to RNNs, which compress previous tokens into a single hidden state, Transformers can attend to all previous tokens directly. However, standard Transformers only use representations from the immediately preceding layer. In this paper, we show that this design choice causes representation collapse and leads to suboptimal performance. To address this issue, we introduce Layer-Integrated Memory (LIMe), a simple yet powerful approach that preserves the model's overall memory footprint while expanding its representational capacity by allowing access to hidden states from earlier layers. Through extensive experiments across various architectures and different lookup mechanisms, we demonstrate consistent performance improvements on a wide range of tasks. Moreover, our analysis of the learned representation dynamics and our exploration of depthwise circuits reveal how LIMe integrates information across layers, pointing to promising directions for future research.
- Abstract(参考訳): 前のトークンを単一の隠れ状態に圧縮するRNNとは対照的に、Transformerはすべての前のトークンに直接参加できる。
しかし、標準トランスフォーマーは直前の層からの表現のみを使用する。
本稿では,この設計選択が表現の崩壊を招き,準最適性能をもたらすことを示す。
この問題に対処するために、私たちは、モデル全体のメモリフットプリントを保存しつつ、以前のレイヤから隠れた状態にアクセスできるようにすることで、その表現能力を拡張する、シンプルで強力なアプローチであるLayer-Integrated Memory (LIMe)を導入しました。
様々なアーキテクチャおよび異なるルックアップ機構にわたる広範な実験を通じて、幅広いタスクにおける一貫したパフォーマンス改善を実証する。
さらに、学習した表現力学の解析と深度回路の探索により、LIMeが層間情報をどのように統合するかが明らかとなり、今後の研究に期待できる方向を示す。
関連論文リスト
- Masked Completion via Structured Diffusion with White-Box Transformers [23.07048591213815]
大規模教師なし表現学習に適用可能なホワイトボックス設計パラダイムの最初のインスタンス化を提供する。
我々は、拡散、圧縮、および(マスクされた)完了の基本的な接続を利用して、ディープトランスフォーマーのようなマスク付きオートエンコーダアーキテクチャを導出する。
CRATE-MAEは、大規模データセット上で非常に有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-03T04:23:01Z) - White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? [27.58916930770997]
数学的に完全に解釈可能なCRATEという,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験によると、これらのネットワークは単純さにもかかわらず、大規模な実世界の画像とテキストデータセットの表現を圧縮し、分散化することを学習している。
論文 参考訳(メタデータ) (2023-11-22T02:23:32Z) - Expediting Large-Scale Vision Transformer for Dense Prediction without
Fine-tuning [28.180891300826165]
大規模視覚変換器におけるトークンの総数を削減するために、多くの先進的なアプローチが開発されている。
2つの非パラメトリック演算子、トークン数を減らすトークンクラスタリング層、トークン数を増やすトークン再構成層を提供する。
その結果、オブジェクト検出、セマンティックセグメンテーション、パノスコープセグメンテーション、インスタンスセグメンテーション、深さ推定を含む5つの密集した予測タスクが期待できる。
論文 参考訳(メタデータ) (2022-10-03T15:49:48Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。
ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文 参考訳(メタデータ) (2022-01-31T02:12:45Z) - Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。
この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。
私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文 参考訳(メタデータ) (2021-12-30T16:07:59Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。