論文の概要: Image is First-order Norm+Linear Autoregressive
- arxiv url: http://arxiv.org/abs/2305.16319v1
- Date: Thu, 25 May 2023 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 13:02:58.954217
- Title: Image is First-order Norm+Linear Autoregressive
- Title(参考訳): 画像は一階ノルム+線形自己回帰的
- Authors: Yinpeng Chen and Xiyang Dai and Dongdong Chen and Mengchen Liu and Lu
Yuan and Zicheng Liu and Youzuo Lin
- Abstract要約: 本稿では、FINOLAと呼ばれる1次ノルム+線形自己回帰過程として、すべての画像が理解可能であることを明らかにする。
256$times$256の画像を16$times$16の特徴写像まで自動回帰を用いて圧縮ベクトルから再構成できることを実証した。
また、簡単なマスク付き予測手法を用いて、FINOLAの自己教師型学習への応用についても検討する。
- 参考スコア(独自算出の注目度): 75.61974935666446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reveals that every image can be understood as a first-order
norm+linear autoregressive process, referred to as FINOLA, where norm+linear
denotes the use of normalization before the linear model. We demonstrate that
images of size 256$\times$256 can be reconstructed from a compressed vector
using autoregression up to a 16$\times$16 feature map, followed by upsampling
and convolution. This discovery sheds light on the underlying partial
differential equations (PDEs) governing the latent feature space. Additionally,
we investigate the application of FINOLA for self-supervised learning through a
simple masked prediction technique. By encoding a single unmasked quadrant
block, we can autoregressively predict the surrounding masked region.
Remarkably, this pre-trained representation proves effective for image
classification and object detection tasks, even in lightweight networks,
without requiring fine-tuning. The code will be made publicly available.
- Abstract(参考訳): 本稿では、すべての画像が一階ノルム+線形自己回帰過程として理解できることを明らかにし、この場合、ノルム+線形は線形モデルよりも先に正規化を使用することを示す。
256$\times$256の画像を16$\times$16のフィーチャーマップに自動回帰を用いて圧縮ベクトルから再構成し、アップサンプリングと畳み込みを行うことを示した。
この発見は潜在特徴空間を支配する偏微分方程式(pdes)に光を当てている。
さらに、簡単なマスク付き予測手法を用いて、FINOLAの自己教師型学習への応用について検討する。
未マスクのクアドラントブロックを1つエンコードすることで、周囲のマスクされた領域を自己回帰的に予測することができる。
この事前訓練された表現は、微調整を必要とせず、軽量ネットワークでも画像分類やオブジェクト検出タスクに有効である。
コードは公開される予定だ。
関連論文リスト
- MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Designing BERT for Convolutional Networks: Sparse and Hierarchical
Masked Modeling [23.164631160130092]
BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。
我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。
これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
論文 参考訳(メタデータ) (2023-01-09T18:59:50Z) - Pixel2ISDF: Implicit Signed Distance Fields based Human Body Model from
Multi-view and Multi-pose Images [67.45882013828256]
我々は,複数の視点と人間のポーズを入力として,標準空間における衣服付き人間の再構築に焦点をあてる。
複数の入力画像を活用することで、ポーズメッシュ上の潜時符号を学習し、その後、標準空間内のメッシュに潜時符号を割り当てる。
本研究は,WCPA MVP-Human Body Challengeにおいて,人体形状を復元する作業を行い,第3の成果を得た。
論文 参考訳(メタデータ) (2022-12-06T05:30:49Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - Shelf-Supervised Mesh Prediction in the Wild [54.01373263260449]
本研究では,物体の3次元形状とポーズを1つの画像から推定する学習手法を提案する。
まず、カメラのポーズとともに、標準フレーム内の体積表現を推定する。
粗い体積予測はメッシュベースの表現に変換され、予測されたカメラフレームでさらに洗練される。
論文 参考訳(メタデータ) (2021-02-11T18:57:10Z) - Neural Hair Rendering [41.25606756188364]
仮想3Dヘアモデルから写真リアルな画像を合成できる汎用的なニューラルベースヘアレンダリングパイプラインを提案する。
提案手法の主な構成要素は,両領域の外観不変構造情報を符号化する潜在空間の共有である。
論文 参考訳(メタデータ) (2020-04-28T04:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。