論文の概要: White-Box Transformers via Sparse Rate Reduction
- arxiv url: http://arxiv.org/abs/2306.01129v1
- Date: Thu, 1 Jun 2023 20:28:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 17:51:59.254359
- Title: White-Box Transformers via Sparse Rate Reduction
- Title(参考訳): スパースレート低減によるホワイトボックス変圧器
- Authors: Yaodong Yu and Sam Buchanan and Druv Pai and Tianzhe Chu and Ziyang Wu
and Shengbang Tong and Benjamin D. Haeffele and Yi Ma
- Abstract要約: 数学的に完全に解釈可能な,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験の結果、これらのネットワークは実際に設計した目的を最適化することを学習していることがわかった。
- 参考スコア(独自算出の注目度): 25.51855431031564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we contend that the objective of representation learning is to
compress and transform the distribution of the data, say sets of tokens,
towards a mixture of low-dimensional Gaussian distributions supported on
incoherent subspaces. The quality of the final representation can be measured
by a unified objective function called sparse rate reduction. From this
perspective, popular deep networks such as transformers can be naturally viewed
as realizing iterative schemes to optimize this objective incrementally.
Particularly, we show that the standard transformer block can be derived from
alternating optimization on complementary parts of this objective: the
multi-head self-attention operator can be viewed as a gradient descent step to
compress the token sets by minimizing their lossy coding rate, and the
subsequent multi-layer perceptron can be viewed as attempting to sparsify the
representation of the tokens. This leads to a family of white-box
transformer-like deep network architectures which are mathematically fully
interpretable. Despite their simplicity, experiments show that these networks
indeed learn to optimize the designed objective: they compress and sparsify
representations of large-scale real-world vision datasets such as ImageNet, and
achieve performance very close to thoroughly engineered transformers such as
ViT. Code is at \url{https://github.com/Ma-Lab-Berkeley/CRATE}.
- Abstract(参考訳): 本稿では,表現学習の目的は,非一貫性部分空間上で支持される低次元ガウス分布の混合に対して,トークン集合などのデータの分布を圧縮して変換することである。
最終的な表現の品質はスパースレート低減と呼ばれる統一目的関数によって測定できる。
この観点から、トランスフォーマーのような一般的なディープネットワークは、この目標を漸進的に最適化するための反復的なスキームを実現すると見なすことができる。
特に、標準変圧器ブロックは、この目的の相補的な部分の交互な最適化から導出できることを示す: 多頭自己照準演算子は、損失の少ない符号化レートを最小化することでトークン集合を圧縮するための勾配降下ステップと見なすことができ、その後の多層パーセプトロンは、トークンの表現をスパース化しようとするものと見なすことができる。
これは、数学的に完全に解釈可能な、ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーにつながる。
これらのネットワークは、ImageNetのような大規模な現実世界のビジョンデータセットの表現を圧縮し、分散させ、ViTのような徹底的に設計されたトランスフォーマーに非常に近いパフォーマンスを達成する。
コードは \url{https://github.com/Ma-Lab-Berkeley/CRATE} にある。
関連論文リスト
- Interpretable Lightweight Transformer via Unrolling of Learned Graph Smoothness Priors [16.04850782310842]
我々は反復最適化アルゴリズムをアンロールすることで、解釈可能で軽量なトランスフォーマーのようなニューラルネットワークを構築する。
正規化信号依存グラフ学習モジュールは、従来の変圧器の基本自己保持機構の変種に相当する。
論文 参考訳(メタデータ) (2024-06-06T14:01:28Z) - White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? [27.58916930770997]
数学的に完全に解釈可能なCRATEという,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験によると、これらのネットワークは単純さにもかかわらず、大規模な実世界の画像とテキストデータセットの表現を圧縮し、分散化することを学習している。
論文 参考訳(メタデータ) (2023-11-22T02:23:32Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Expediting Large-Scale Vision Transformer for Dense Prediction without
Fine-tuning [28.180891300826165]
大規模視覚変換器におけるトークンの総数を削減するために、多くの先進的なアプローチが開発されている。
2つの非パラメトリック演算子、トークン数を減らすトークンクラスタリング層、トークン数を増やすトークン再構成層を提供する。
その結果、オブジェクト検出、セマンティックセグメンテーション、パノスコープセグメンテーション、インスタンスセグメンテーション、深さ推定を含む5つの密集した予測タスクが期待できる。
論文 参考訳(メタデータ) (2022-10-03T15:49:48Z) - Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot
Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。
VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文 参考訳(メタデータ) (2022-07-22T04:10:30Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。