論文の概要: Registers Matter for Pixel-Space Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2605.16147v1
- Date: Fri, 15 May 2026 16:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.370347
- Title: Registers Matter for Pixel-Space Diffusion Transformers
- Title(参考訳): 画素空間拡散変換器の登録事項
- Authors: Nikita Starodubcev, Ilia Sudakov, Ilya Drobyshevskiy, Artem Babenko, Dmitry Baranchuk,
- Abstract要約: Vision Transformer (ViTs) は、機能マップの品質を低下させる、高いノームなパッチトークのアウトリーチを示すことで知られている。
DiT が ViT と重要な点で異なることを示す。
レジスタトークンは画素空間DiTの収束と生成品質を著しく向上させる。
- 参考スコア(独自算出の注目度): 22.836387612443037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) are known to exhibit high-norm patch-token outliers that degrade feature map quality, a problem effectively mitigated by \textit{register tokens}. As diffusion models increasingly adopt transformer architectures and move toward pixel-space training, they become closer in form to ViTs, raising the question of whether register tokens are also useful for Diffusion Transformers (DiTs). In this work, we show that DiTs differ from ViTs in a key respect: they do not exhibit patch-token outliers. Interestingly, register tokens significantly improve convergence and generation quality of pixel-space DiTs. By analyzing intermediate representations, we find that register tokens produce cleaner feature maps at high noise levels, which may contribute to their effectiveness in pixel-space generation. We further observe that recent pixel-space DiT architectures implicitly incorporate register-like mechanisms, which may partially account for their strong empirical performance. Motivated by these insights, we investigate a parameter-efficient dual-stream architecture that specializes processing for register tokens and improves pixel-space generation quality with negligible runtime overhead.
- Abstract(参考訳): Vision Transformer (ViTs) は、特徴マップの品質を低下させる、高ノルムなパッチトケントなアウトレイラを示すことで知られており、これは textit{register tokens} によって効果的に緩和される。
拡散モデルがトランスフォーマーアーキテクチャを採用し、ピクセル空間のトレーニングへと移行するにつれて、ViTsに形式的に近づき、Diffusion Transformer(DiTs)にもレジスタトークンが有用かどうかという疑問が提起される。
本研究は,ViTsとViTsとは重要な点で異なることを示し,パッチトーケンのアウトレイラは示さない。
興味深いことに、レジスタトークンはピクセル空間のDiTの収束と生成品質を大幅に改善する。
中間表現を解析することにより、レジスタトークンはよりクリーンな特徴マップを高ノイズレベルで生成し、ピクセル空間生成の有効性に寄与する可能性がある。
さらに,近年の画素空間のDiTアーキテクチャにはレジスタ様機構が暗黙的に組み込まれており,この機構が強大な経験的性能を部分的に説明できる可能性が示唆された。
これらの知見により,レジスタトークンの処理を専門とするパラメータ効率の両ストリームアーキテクチャについて検討し,実行時のオーバーヘッドを無視して画素空間生成の品質を向上させる。
関連論文リスト
- Taming Outlier Tokens in Diffusion Transformers [55.42341508886889]
画像生成のための拡散変換器(DiT)の外部トークンについて検討する。
この現象は、現代の表現オートエンコーダ(RAE)-DiTパイプラインのエンコーダとデノイザの両方に現れる。
両コンポーネントのレジスタベースの介入であるDSR(Dual-Stage Registers)を導入する。
論文 参考訳(メタデータ) (2026-05-06T17:59:42Z) - THAT: Token-wise High-frequency Augmentation Transformer for Hyperspectral Pansharpening [11.026691195419453]
トランスフォーマーに基づく手法は、高スペクトルパンシャーピングにおいて強い可能性を証明している。
それらの効果は、冗長なトークン表現とマルチスケール機能モデリングの欠如によって制限されることが多い。
本稿では,高スペクトルパンシャーピングを向上する新しいフレームワークであるToken-wise High- frequency Augmentation Transformer (THAT)を提案する。
論文 参考訳(メタデータ) (2025-08-11T17:03:10Z) - Superpixel Tokenization for Vision Transformers: Preserving Semantic Integrity in Visual Tokens [38.31045722878938]
我々は、Vision Transformerのグリッドベースのトークン化をスーパーピクセルトークン化に置き換えることを提案する。
既存のフレームワークとの強い互換性を示すアプローチは、様々な下流タスクにおけるViTの精度と堅牢性を高める。
論文 参考訳(メタデータ) (2024-12-06T00:38:36Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Attribute Surrogates Learning and Spectral Tokens Pooling in
Transformers for Few-shot Learning [50.95116994162883]
ビジョントランスフォーマーは、視覚認識のための畳み込みニューラルネットワークに代わる有望な選択肢だと考えられている。
本稿では,スペクトルトークンプールによる固有画像構造を利用した階層的カスケード変換器を提案する。
HCTransformersはDINOベースラインを9.7%の5ウェイの1ショット精度と9.17%の5ウェイの5ショット精度で上回っている。
論文 参考訳(メタデータ) (2022-03-17T03:49:58Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。