論文の概要: Image as First-Order Norm+Linear Autoregression: Unveiling Mathematical
Invariance
- arxiv url: http://arxiv.org/abs/2305.16319v2
- Date: Wed, 11 Oct 2023 20:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 15:19:42.728290
- Title: Image as First-Order Norm+Linear Autoregression: Unveiling Mathematical
Invariance
- Title(参考訳): 1次ノルム+線形自己回帰としてのイメージ:数学的不変性を明らかにする
- Authors: Yinpeng Chen and Xiyang Dai and Dongdong Chen and Mengchen Liu and Lu
Yuan and Zicheng Liu and Youzuo Lin
- Abstract要約: FINOLAは、潜在空間内の各画像を1次自己回帰プロセスとして表現する。
FINOLAの256x256機能マップへの自動回帰機能を示す。
また、簡単なマスク付き予測手法を用いて、FINOLAを自己教師型学習に活用する。
- 参考スコア(独自算出の注目度): 104.05734286732941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel mathematical property applicable to diverse
images, referred to as FINOLA (First-Order Norm+Linear Autoregressive). FINOLA
represents each image in the latent space as a first-order autoregressive
process, in which each regression step simply applies a shared linear model on
the normalized value of its immediate neighbor. This intriguing property
reveals a mathematical invariance that transcends individual images. Expanding
from image grids to continuous coordinates, we unveil the presence of two
underlying partial differential equations. We validate the FINOLA property from
two distinct angles: image reconstruction and self-supervised learning.
Firstly, we demonstrate the ability of FINOLA to auto-regress up to a 256x256
feature map (the same resolution to the image) from a single vector placed at
the center, successfully reconstructing the original image by only using three
3x3 convolution layers as decoder. Secondly, we leverage FINOLA for
self-supervised learning by employing a simple masked prediction approach.
Encoding a single unmasked quadrant block, we autoregressively predict the
surrounding masked region. Remarkably, this pre-trained representation proves
highly effective in image classification and object detection tasks, even when
integrated into lightweight networks, all without the need for extensive
fine-tuning. The code will be made publicly available.
- Abstract(参考訳): 本稿では,FINOLA(First-Order Norm+Linear Autoregressive)と呼ばれる多様な画像に適用可能な新しい数学的特性を紹介する。
FINOLAは、遅延空間内の各画像を1次自己回帰過程として表現し、各回帰ステップはその近傍の正規化値に共有線形モデルを単純に適用する。
この興味深い性質は、個々の画像を超越する数学的不変性を明らかにする。
画像グリッドから連続座標へと拡張し、基礎となる2つの偏微分方程式の存在を明らかにする。
画像再構成と自己教師型学習の2つの異なる角度からFINOLA特性を検証する。
まず、finolaが256x256の機能マップ(画像と同じ解像度)を中央に配置し、デコーダとして3つの3x3畳み込み層のみを使用して元の画像の再構築に成功したことを実証する。
次に、簡単なマスク付き予測手法を用いて、FINOLAを自己教師型学習に活用する。
マスクのない1つのクアドラントブロックを符号化し、周囲のマスキング領域を自動回帰予測する。
驚くべきことに、この事前学習された表現は、画像分類やオブジェクト検出タスクにおいて非常に効果的である。
コードは公開される予定だ。
関連論文リスト
- MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Designing BERT for Convolutional Networks: Sparse and Hierarchical
Masked Modeling [23.164631160130092]
BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。
我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。
これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
論文 参考訳(メタデータ) (2023-01-09T18:59:50Z) - Pixel2ISDF: Implicit Signed Distance Fields based Human Body Model from
Multi-view and Multi-pose Images [67.45882013828256]
我々は,複数の視点と人間のポーズを入力として,標準空間における衣服付き人間の再構築に焦点をあてる。
複数の入力画像を活用することで、ポーズメッシュ上の潜時符号を学習し、その後、標準空間内のメッシュに潜時符号を割り当てる。
本研究は,WCPA MVP-Human Body Challengeにおいて,人体形状を復元する作業を行い,第3の成果を得た。
論文 参考訳(メタデータ) (2022-12-06T05:30:49Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - Shelf-Supervised Mesh Prediction in the Wild [54.01373263260449]
本研究では,物体の3次元形状とポーズを1つの画像から推定する学習手法を提案する。
まず、カメラのポーズとともに、標準フレーム内の体積表現を推定する。
粗い体積予測はメッシュベースの表現に変換され、予測されたカメラフレームでさらに洗練される。
論文 参考訳(メタデータ) (2021-02-11T18:57:10Z) - Neural Hair Rendering [41.25606756188364]
仮想3Dヘアモデルから写真リアルな画像を合成できる汎用的なニューラルベースヘアレンダリングパイプラインを提案する。
提案手法の主な構成要素は,両領域の外観不変構造情報を符号化する潜在空間の共有である。
論文 参考訳(メタデータ) (2020-04-28T04:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。