論文の概要: Scalable, Tokenization-Free Diffusion Model Architectures with Efficient Initial Convolution and Fixed-Size Reusable Structures for On-Device Image Generation
- arxiv url: http://arxiv.org/abs/2411.06119v1
- Date: Sat, 09 Nov 2024 08:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:18.911158
- Title: Scalable, Tokenization-Free Diffusion Model Architectures with Efficient Initial Convolution and Fixed-Size Reusable Structures for On-Device Image Generation
- Title(参考訳): オンデバイス画像生成のための効率的な初期畳み込みと固定サイズ再利用可能な構造をもつスケーラブルでトークン化のない拡散モデルアーキテクチャ
- Authors: Sanchar Palit, Sathya Veera Reddy Dendi, Mallikarjuna Talluri, Raj Narayana Gadde,
- Abstract要約: ビジョントランスフォーマーとU-Netアーキテクチャは拡散モデルの実装において広く採用されている。
固定サイズ再利用可能なトランスブロックをコア構造として利用するアーキテクチャを提案する。
私たちのアーキテクチャの特徴は、複雑さの低い、トークンのない設計、位置埋め込みの欠如、均一性、スケーラビリティです。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Vision Transformers and U-Net architectures have been widely adopted in the implementation of Diffusion Models. However, each architecture presents specific challenges while realizing them on-device. Vision Transformers require positional embedding to maintain correspondence between the tokens processed by the transformer, although they offer the advantage of using fixed-size, reusable repetitive blocks following tokenization. The U-Net architecture lacks these attributes, as it utilizes variable-sized intermediate blocks for down-convolution and up-convolution in the noise estimation backbone for the diffusion process. To address these issues, we propose an architecture that utilizes a fixed-size, reusable transformer block as a core structure, making it more suitable for hardware implementation. Our architecture is characterized by low complexity, token-free design, absence of positional embeddings, uniformity, and scalability, making it highly suitable for deployment on mobile and resource-constrained devices. The proposed model exhibit competitive and consistent performance across both unconditional and conditional image generation tasks. The model achieved a state-of-the-art FID score of 1.6 on unconditional image generation with the CelebA.
- Abstract(参考訳): ビジョントランスフォーマーとU-Netアーキテクチャは拡散モデルの実装において広く採用されている。
しかしながら、各アーキテクチャはデバイス上で実現しながら、特定の課題を提示します。
視覚変換器は、変圧器によって処理されるトークン間の対応を維持するために位置埋め込みを必要とするが、それらはトークン化に続く固定サイズで再利用可能な繰り返しブロックを使用することの利点を提供する。
U-Netアーキテクチャは、拡散過程のノイズ推定バックボーンのダウンコンボリューションとアップコンボリューションに可変サイズの中間ブロックを使用するため、これらの特性を欠いている。
これらの問題に対処するため,本研究では,ハードウェア実装に適した,固定サイズの再利用可能なトランスフォーマーブロックをコア構造として利用するアーキテクチャを提案する。
当社のアーキテクチャは,低複雑性,トークンフリー設計,位置埋め込みの欠如,均一性,スケーラビリティを特徴とし,モバイルおよびリソース制約されたデバイスへの展開に極めて適している。
提案モデルでは,非条件画像生成タスクと条件画像生成タスクの両方において,競合的かつ一貫した性能を示す。
このモデルはCelebAを用いた無条件画像生成において、最先端のFIDスコア1.6を達成した。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models [33.372947082734946]
本稿では,NLPで使用されるRWKVモデルに適応した一連のアーキテクチャについて紹介する。
我々のモデルは、追加条件で順序付けされた入力を効率的に処理すると同時に、効果的にスケールアップするように設計されている。
その顕著な利点は空間集約の複雑さの低減であり、高解像度画像の処理に非常に適している。
論文 参考訳(メタデータ) (2024-04-06T02:54:35Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - HUMUS-Net: Hybrid unrolled multi-scale network architecture for
accelerated MRI reconstruction [38.0542877099235]
HUMUS-Netは、暗黙のバイアスと畳み込みの効率を、無ロールでマルチスケールのネットワークにおけるTransformerブロックのパワーと組み合わせたハイブリッドアーキテクチャである。
我々のネットワークは、最も広く公開されているMRIデータセットである高速MRIデータセット上で、新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-03-15T19:26:29Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。