論文の概要: Spatial Functa: Scaling Functa to ImageNet Classification and Generation
- arxiv url: http://arxiv.org/abs/2302.03130v1
- Date: Mon, 6 Feb 2023 21:35:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 18:14:21.801270
- Title: Spatial Functa: Scaling Functa to ImageNet Classification and Generation
- Title(参考訳): spatial functa: imagenet分類と生成へのfunctaのスケーリング
- Authors: Matthias Bauer, Emilien Dupont, Andy Brock, Dan Rosenbaum, Jonathan
Schwarz, Hyunjik Kim
- Abstract要約: 本稿では,ニューラルフィールドをデータとみなすフレームワークである*functa*を提案し,このニューラルネットワークのデータセット上で直接ディープラーニングを行うことを提案する。
CIFAR-10のような中程度に複雑なデータセットにスケールアップする場合,提案するフレームワークは制限に直面している。
次に、空間的に配置されたニューラルネットワークの潜在表現を用いて、これらの制限を克服する *spatial functa* を提案する。
- 参考スコア(独自算出の注目度): 21.583136946888725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural fields, also known as implicit neural representations, have emerged as
a powerful means to represent complex signals of various modalities. Based on
this Dupont et al. (2022) introduce a framework that views neural fields as
data, termed *functa*, and proposes to do deep learning directly on this
dataset of neural fields. In this work, we show that the proposed framework
faces limitations when scaling up to even moderately complex datasets such as
CIFAR-10. We then propose *spatial functa*, which overcome these limitations by
using spatially arranged latent representations of neural fields, thereby
allowing us to scale up the approach to ImageNet-1k at 256x256 resolution. We
demonstrate competitive performance to Vision Transformers (Steiner et al.,
2022) on classification and Latent Diffusion (Rombach et al., 2022) on image
generation respectively.
- Abstract(参考訳): 暗黙的な神経表現としても知られる神経場は、様々な様相の複雑な信号を表現する強力な手段として出現した。
この dupont et al. (2022) に基づいて、ニューラルネットワークをデータとして見るフレームワーク *functa* を導入し、このニューラルネットワークのデータセットでディープラーニングを直接行うことを提案している。
本研究では,CIFAR-10のような中程度に複雑なデータセットにスケールアップする場合,提案するフレームワークが限界に直面することを示す。
次に、空間配置されたニューラルネットワークの潜在表現を用いて、これらの制限を克服し、256×256の解像度でImageNet-1kへのアプローチをスケールアップする*spatial functa*を提案する。
画像生成における視覚変換器(Steiner et al., 2022)とラテント拡散器(Rombach et al., 2022)との競合性能を示す。
関連論文リスト
- FFEINR: Flow Feature-Enhanced Implicit Neural Representation for
Spatio-temporal Super-Resolution [4.577685231084759]
本稿では,フローフィールドデータの超高分解能化のための特徴強調型ニューラルインシシット表現(FFEINR)を提案する。
モデル構造とサンプリング分解能の観点から、暗黙のニューラル表現を最大限に活用することができる。
FFEINRのトレーニングプロセスは、入力層に機能拡張を導入することで容易になる。
論文 参考訳(メタデータ) (2023-08-24T02:28:18Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - Polynomial Implicit Neural Representations For Large Diverse Datasets [0.0]
Inlicit Neural representations (INR) は信号と画像の表現において大きな人気を得ている。
多くのINRアーキテクチャは正弦波位置符号化に依存しており、これはデータの高周波情報の原因となっている。
提案手法は,画像を関数で表現することでこのギャップに対処し,位置エンコーディングの必要性を解消する。
提案するPoly-INRモデルは, 畳み込み, 正規化, 自己アテンションを伴わずに, 最先端の生成モデルと同等に機能する。
論文 参考訳(メタデータ) (2023-03-20T20:09:46Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - ACORN: Adaptive Coordinate Networks for Neural Scene Representation [40.04760307540698]
現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。
トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。
ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
論文 参考訳(メタデータ) (2021-05-06T16:21:38Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - Network Bending: Expressive Manipulation of Deep Generative Models [0.2062593640149624]
ネットワーク曲げと呼ばれる深層生成モデルを操作するための新しいフレームワークを提案する。
生成過程において意味論的に意味のある側面を直接操作できるだけでなく、幅広い表現的な結果を得ることができるかを示す。
論文 参考訳(メタデータ) (2020-05-25T21:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。