論文の概要: Attention-Only Transformers via Unrolled Subspace Denoising
- arxiv url: http://arxiv.org/abs/2506.03790v1
- Date: Wed, 04 Jun 2025 09:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.277854
- Title: Attention-Only Transformers via Unrolled Subspace Denoising
- Title(参考訳): Unrolled Subspace Denoisingによるアテンションオンリー変圧器
- Authors: Peng Wang, Yifu Lu, Yaodong Yu, Druv Pai, Qing Qu, Yi Ma,
- Abstract要約: 必要なコンポーネントのみを持つ完全に解釈可能なトランスフォーマーアーキテクチャを導出する。
このような反復的なdenoising操作をディープネットワークにアンロールすることで、我々は非常にコンパクトなアーキテクチャに到達します。
その単純さにもかかわらず、ビジョンと言語タスクの実験は、そのようなトランスフォーマーが標準的なトランスフォーマーアーキテクチャに近い性能を達成することを示した。
- 参考スコア(独自算出の注目度): 19.832264029213515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the popularity of transformers in practice, their architectures are empirically designed and neither mathematically justified nor interpretable. Moreover, as indicated by many empirical studies, some components of transformer architectures may be redundant. To derive a fully interpretable transformer architecture with only necessary components, we contend that the goal of representation learning is to compress a set of noisy initial token representations towards a mixture of low-dimensional subspaces. To compress these noisy token representations, an associated denoising operation naturally takes the form of a multi-head (subspace) self-attention. By unrolling such iterative denoising operations into a deep network, we arrive at a highly compact architecture that consists of \textit{only} self-attention operators with skip connections at each layer. Moreover, we show that each layer performs highly efficient denoising: it improves the signal-to-noise ratio of token representations \textit{at a linear rate} with respect to the number of layers. Despite its simplicity, extensive experiments on vision and language tasks demonstrate that such a transformer achieves performance close to that of standard transformer architectures such as GPT-2 and CRATE.
- Abstract(参考訳): 実際にはトランスフォーマーの人気にもかかわらず、そのアーキテクチャは経験的に設計されており、数学的に正当化も解釈もできない。
さらに、多くの実証研究によって示されているように、トランスフォーマーアーキテクチャのいくつかのコンポーネントは冗長である可能性がある。
表現学習の目的は,低次元部分空間の混合に対して,ノイズの多い初期トークン表現の集合を圧縮することである。
これらのノイズの多いトークン表現を圧縮するために、関連するdenoising演算は自然にマルチヘッド(部分空間)自己アテンションの形を取る。
このような反復的なデノベーション操作をディープネットワークにアンロールすることで,各レイヤにスキップ接続を持つtextit{only} 自己アテンション演算子で構成される,非常にコンパクトなアーキテクチャに到達します。
さらに,各層が高効率な復調を行うことを示す。各層は,各層数に対するトークン表現の信号対雑音比を向上する。
その単純さにもかかわらず、ビジョンと言語タスクに関する広範な実験により、このようなトランスフォーマーはGPT-2やCRATEのような標準的なトランスフォーマーアーキテクチャに近い性能を達成している。
関連論文リスト
- "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? [27.58916930770997]
数学的に完全に解釈可能なCRATEという,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験によると、これらのネットワークは単純さにもかかわらず、大規模な実世界の画像とテキストデータセットの表現を圧縮し、分散化することを学習している。
論文 参考訳(メタデータ) (2023-11-22T02:23:32Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。