論文の概要: Polynomial Implicit Neural Representations For Large Diverse Datasets
- arxiv url: http://arxiv.org/abs/2303.11424v1
- Date: Mon, 20 Mar 2023 20:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 17:24:13.988703
- Title: Polynomial Implicit Neural Representations For Large Diverse Datasets
- Title(参考訳): 多種多様なデータセットに対する多項式暗黙的ニューラルネットワーク表現
- Authors: Rajhans Singh (1), Ankita Shukla (1), Pavan Turaga (1) ((1) Arizona
State University)
- Abstract要約: Inlicit Neural representations (INR) は信号と画像の表現において大きな人気を得ている。
多くのINRアーキテクチャは正弦波位置符号化に依存しており、これはデータの高周波情報の原因となっている。
提案手法は,画像を関数で表現することでこのギャップに対処し,位置エンコーディングの必要性を解消する。
提案するPoly-INRモデルは, 畳み込み, 正規化, 自己アテンションを伴わずに, 最先端の生成モデルと同等に機能する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit neural representations (INR) have gained significant popularity for
signal and image representation for many end-tasks, such as superresolution, 3D
modeling, and more. Most INR architectures rely on sinusoidal positional
encoding, which accounts for high-frequency information in data. However, the
finite encoding size restricts the model's representational power. Higher
representational power is needed to go from representing a single given image
to representing large and diverse datasets. Our approach addresses this gap by
representing an image with a polynomial function and eliminates the need for
positional encodings. Therefore, to achieve a progressively higher degree of
polynomial representation, we use element-wise multiplications between features
and affine-transformed coordinate locations after every ReLU layer. The
proposed method is evaluated qualitatively and quantitatively on large datasets
like ImageNet. The proposed Poly-INR model performs comparably to
state-of-the-art generative models without any convolution, normalization, or
self-attention layers, and with far fewer trainable parameters. With much fewer
training parameters and higher representative power, our approach paves the way
for broader adoption of INR models for generative modeling tasks in complex
domains. The code is available at \url{https://github.com/Rajhans0/Poly_INR}
- Abstract(参考訳): Inlicit Neural representations (INR)は、超解像や3Dモデリングなど、多くのエンドタスクにおいて、信号と画像の表現において大きな人気を得ている。
多くのINRアーキテクチャは正弦波位置符号化に依存しており、これはデータの高周波情報である。
しかし、有限符号化サイズはモデルの表現力を制限する。
与えられた1つの画像から、大規模で多様なデータセットまで、高い表現力が必要である。
本手法は,多項式関数で画像を表現することでこのギャップを解消し,位置符号化の必要性をなくす。
したがって、多項式表現の次々に高次化を達成するために、各ReLU層における特徴量とアフィン変換座標位置との要素的乗法を用いる。
提案手法はImageNetのような大規模データセット上で定性的かつ定量的に評価される。
提案するpoly-inrモデルは,畳み込みや正規化,自己アテンション層を必要とせず,学習可能なパラメータをはるかに少なく,最先端の生成モデルに比較可能である。
より少ないトレーニングパラメータと高い代表力で、複雑なドメインにおける生成モデリングタスクにINRモデルを広く採用するための道を開く。
コードは \url{https://github.com/rajhans0/poly_inr} で入手できる。
関連論文リスト
- Attention Beats Linear for Fast Implicit Neural Representation Generation [13.203243059083533]
本稿では,局所的注意層(LAL)と大域的表現ベクトルからなる注意型局所INR(ANR)を提案する。
インスタンス固有の表現とインスタンスに依存しないANRパラメータにより、ターゲット信号は連続関数として十分に再構成される。
論文 参考訳(メタデータ) (2024-07-22T03:52:18Z) - HyperPlanes: Hypernetwork Approach to Rapid NeRF Adaptation [4.53411151619456]
本稿では,推論中に勾配最適化を必要としないハイパーネットワークのパラダイムに基づく数ショットの学習手法を提案する。
我々は,少数の画像から高品質な3Dオブジェクト表現を単一ステップで生成する効率的な方法を開発した。
論文 参考訳(メタデータ) (2024-02-02T16:10:29Z) - Neural Fields with Thermal Activations for Arbitrary-Scale Super-Resolution [56.089473862929886]
本稿では,適応型ガウスPSFを用いて点を問合せできる新しい設計手法を提案する。
理論的に保証されたアンチエイリアスにより、任意のスケールの単一画像の超解像のための新しい手法が確立される。
論文 参考訳(メタデータ) (2023-11-29T14:01:28Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Neural Residual Flow Fields for Efficient Video Representations [5.904082461511478]
入射神経表現(INR)は、画像、ビデオ、3D形状などの信号を表現するための強力なパラダイムとして登場した。
本稿では,データ冗長性を明示的に取り除き,ビデオの表現と圧縮を行う新しいINR手法を提案する。
本稿では,提案手法がベースライン法よりも有意差で優れていることを示す。
論文 参考訳(メタデータ) (2022-01-12T06:22:09Z) - Meta-Learning Sparse Implicit Neural Representations [69.15490627853629]
入射神経表現は、一般的な信号を表す新しい道である。
現在のアプローチは、多数の信号やデータセットに対してスケールすることが難しい。
メタ学習型スパースニューラル表現は,高密度メタ学習モデルよりもはるかに少ない損失が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T18:02:53Z) - Adversarial Generation of Continuous Images [31.92891885615843]
本稿では,INRに基づく画像デコーダ構築のための2つの新しいアーキテクチャ手法を提案する。
私たちは、最先端の連続画像GANを構築するためにそれらを使用します。
提案したINR-GANアーキテクチャは連続画像生成装置の性能を数倍改善する。
論文 参考訳(メタデータ) (2020-11-24T11:06:40Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。