論文の概要: White-Box Transformers via Sparse Rate Reduction: Compression Is All
There Is?
- arxiv url: http://arxiv.org/abs/2311.13110v2
- Date: Fri, 24 Nov 2023 09:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 12:25:42.304464
- Title: White-Box Transformers via Sparse Rate Reduction: Compression Is All
There Is?
- Title(参考訳): ホワイトボックス・トランスフォーマーの低レート化:圧縮がすべて存在するか?
- Authors: Yaodong Yu, Sam Buchanan, Druv Pai, Tianzhe Chu, Ziyang Wu, Shengbang
Tong, Hao Bai, Yuexiang Zhai, Benjamin D. Haeffele, Yi Ma
- Abstract要約: 数学的に完全に解釈可能なCRATEという,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験によると、これらのネットワークは単純さにもかかわらず、大規模な実世界の画像とテキストデータセットの表現を圧縮し、分散化することを学習している。
- 参考スコア(独自算出の注目度): 28.507148793856388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we contend that a natural objective of representation learning
is to compress and transform the distribution of the data, say sets of tokens,
towards a low-dimensional Gaussian mixture supported on incoherent subspaces.
The goodness of such a representation can be evaluated by a principled measure,
called sparse rate reduction, that simultaneously maximizes the intrinsic
information gain and extrinsic sparsity of the learned representation. From
this perspective, popular deep network architectures, including transformers,
can be viewed as realizing iterative schemes to optimize this measure.
Particularly, we derive a transformer block from alternating optimization on
parts of this objective: the multi-head self-attention operator compresses the
representation by implementing an approximate gradient descent step on the
coding rate of the features, and the subsequent multi-layer perceptron
sparsifies the features. This leads to a family of white-box transformer-like
deep network architectures, named CRATE, which are mathematically fully
interpretable. We show, by way of a novel connection between denoising and
compression, that the inverse to the aforementioned compressive encoding can be
realized by the same class of CRATE architectures. Thus, the so-derived
white-box architectures are universal to both encoders and decoders.
Experiments show that these networks, despite their simplicity, indeed learn to
compress and sparsify representations of large-scale real-world image and text
datasets, and achieve performance very close to highly engineered
transformer-based models: ViT, MAE, DINO, BERT, and GPT2. We believe the
proposed computational framework demonstrates great potential in bridging the
gap between theory and practice of deep learning, from a unified perspective of
data compression. Code is available at: https://ma-lab-berkeley.github.io/CRATE .
- Abstract(参考訳): 本稿では,表現学習の自然な目的は,トークン集合などのデータの分布を非一貫性部分空間上で支持される低次元ガウス混合へと圧縮・変換することである。
このような表現の良さはスパースレート還元と呼ばれる原理的尺度で評価することができ、学習された表現の内在的な情報ゲインと外在的な空間性を同時に最大化する。
この観点からは、トランスフォーマーを含む一般的なディープネットワークアーキテクチャは、この測定を最適化するための反復的なスキームの実現と見なすことができる。
マルチヘッド自己注意演算子は、特徴の符号化速度に近似的な勾配降下ステップを実装して表現を圧縮し、その後の多層パーセプトロンは特徴を拡大する。
これは、数学的に完全に解釈可能なCRATEと呼ばれる、ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーにつながる。
我々は, 雑音化と圧縮の新たな接続により, 上記の圧縮エンコーディングの逆を同一のcrateアーキテクチャで実現できることを示す。
したがって、ホワイトボックスアーキテクチャはエンコーダとデコーダの両方に共通である。
実験によると、これらのネットワークは、その単純さにもかかわらず、大規模な現実世界の画像やテキストデータセットの表現を圧縮し、スパース化することを学び、高度にエンジニアリングされたトランスフォーマーベースのモデルであるViT、MAE、DINO、BERT、GPT2に非常に近い性能を達成する。
提案した計算フレームワークは,データ圧縮の統一的な視点から,深層学習の理論と実践のギャップを埋める大きな可能性を実証している。
コードは、https://ma-lab-berkeley.github.io/CRATE で入手できる。
関連論文リスト
- Variable-size Symmetry-based Graph Fourier Transforms for image compression [65.7352685872625]
可変サイズのグラフフーリエ変換を符号化フレームワークに導入する。
提案アルゴリズムは,ノード間の特定の対称接続を追加することにより,グリッド上の対称グラフを生成する。
実験により、SBGFTは、明示的な多重変換選択に統合された一次変換よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-24T13:00:44Z) - Rethinking Decoders for Transformer-based Semantic Segmentation: Compression is All You Need [3.218600495900291]
セマンティックセグメンテーションと圧縮の間には根本的な関係があることを論じる。
PrIncipled SemantiC SegemenTation(DEPICT)のためのホワイトボックス完全注意型Decoderを考案した。
ADE20Kで行った実験では、DEPICTはブラックボックスであるSegmenterよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-05T12:10:02Z) - High-Performance Transformers for Table Structure Recognition Need Early
Convolutions [25.04573593082671]
既存のアプローチでは、ビジュアルエンコーダには古典的畳み込みニューラルネットワーク(CNN)、テキストデコーダにはトランスフォーマーが使用されている。
表現力を犠牲にすることなくテーブル構造認識(TSR)のための軽量ビジュアルエンコーダを設計する。
畳み込みステムは従来のCNNバックボーンのパフォーマンスとより単純なモデルで一致できることが判明した。
論文 参考訳(メタデータ) (2023-11-09T18:20:52Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - White-Box Transformers via Sparse Rate Reduction [25.51855431031564]
数学的に完全に解釈可能な,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験の結果、これらのネットワークは実際に設計した目的を最適化することを学習していることがわかった。
論文 参考訳(メタデータ) (2023-06-01T20:28:44Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Communication-Efficient Federated Learning via Quantized Compressed
Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。
勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。
圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文 参考訳(メタデータ) (2021-11-30T02:13:54Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。