論文の概要: Spatial Functa: Scaling Functa to ImageNet Classification and Generation
- arxiv url: http://arxiv.org/abs/2302.03130v1
- Date: Mon, 6 Feb 2023 21:35:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 18:14:21.801270
- Title: Spatial Functa: Scaling Functa to ImageNet Classification and Generation
- Title(参考訳): spatial functa: imagenet分類と生成へのfunctaのスケーリング
- Authors: Matthias Bauer, Emilien Dupont, Andy Brock, Dan Rosenbaum, Jonathan
Schwarz, Hyunjik Kim
- Abstract要約: 本稿では,ニューラルフィールドをデータとみなすフレームワークである*functa*を提案し,このニューラルネットワークのデータセット上で直接ディープラーニングを行うことを提案する。
CIFAR-10のような中程度に複雑なデータセットにスケールアップする場合,提案するフレームワークは制限に直面している。
次に、空間的に配置されたニューラルネットワークの潜在表現を用いて、これらの制限を克服する *spatial functa* を提案する。
- 参考スコア(独自算出の注目度): 21.583136946888725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural fields, also known as implicit neural representations, have emerged as
a powerful means to represent complex signals of various modalities. Based on
this Dupont et al. (2022) introduce a framework that views neural fields as
data, termed *functa*, and proposes to do deep learning directly on this
dataset of neural fields. In this work, we show that the proposed framework
faces limitations when scaling up to even moderately complex datasets such as
CIFAR-10. We then propose *spatial functa*, which overcome these limitations by
using spatially arranged latent representations of neural fields, thereby
allowing us to scale up the approach to ImageNet-1k at 256x256 resolution. We
demonstrate competitive performance to Vision Transformers (Steiner et al.,
2022) on classification and Latent Diffusion (Rombach et al., 2022) on image
generation respectively.
- Abstract(参考訳): 暗黙的な神経表現としても知られる神経場は、様々な様相の複雑な信号を表現する強力な手段として出現した。
この dupont et al. (2022) に基づいて、ニューラルネットワークをデータとして見るフレームワーク *functa* を導入し、このニューラルネットワークのデータセットでディープラーニングを直接行うことを提案している。
本研究では,CIFAR-10のような中程度に複雑なデータセットにスケールアップする場合,提案するフレームワークが限界に直面することを示す。
次に、空間配置されたニューラルネットワークの潜在表現を用いて、これらの制限を克服し、256×256の解像度でImageNet-1kへのアプローチをスケールアップする*spatial functa*を提案する。
画像生成における視覚変換器(Steiner et al., 2022)とラテント拡散器(Rombach et al., 2022)との競合性能を示す。
関連論文リスト
- Contrastive Learning to Fine-Tune Feature Extraction Models for the Visual Cortex [1.2891210250935148]
我々は、画像分類のために事前訓練された畳み込みニューラルネットワークを微調整するために、コントラスト学習を適用した。
CL微調整により特徴抽出モデルが生成され,初期視覚ROIの符号化精度が向上することを示す。
論文 参考訳(メタデータ) (2024-10-08T14:14:23Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - ACORN: Adaptive Coordinate Networks for Neural Scene Representation [40.04760307540698]
現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。
トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。
ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
論文 参考訳(メタデータ) (2021-05-06T16:21:38Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - Network Bending: Expressive Manipulation of Deep Generative Models [0.2062593640149624]
ネットワーク曲げと呼ばれる深層生成モデルを操作するための新しいフレームワークを提案する。
生成過程において意味論的に意味のある側面を直接操作できるだけでなく、幅広い表現的な結果を得ることができるかを示す。
論文 参考訳(メタデータ) (2020-05-25T21:48:45Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。