論文の概要: PIP: Positional-encoding Image Prior
- arxiv url: http://arxiv.org/abs/2211.14298v3
- Date: Sun, 3 Mar 2024 10:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 04:21:41.623229
- Title: PIP: Positional-encoding Image Prior
- Title(参考訳): PIP: 位置エンコード画像
- Authors: Nimrod Shabtay, Eli Schwartz and Raja Giryes
- Abstract要約: Deep Image Prior (DIP)では、畳み込みニューラルネットワーク(CNN)が潜伏空間を劣化した(ノイズなど)画像にマッピングするが、その過程でクリーンな画像の再構築を学ぶ。
我々は、暗黙的な神経表現の観点から、DIPフレームワークを再考する。
この観点から動機づけられた、ランダムまたは学習された潜伏者をフーリエ・フィーチャーに置き換える(予備的特徴)
我々はこのスキームを「位置画像優先」 (PIP) と命名し、パラメータがはるかに少ない様々な画像処理タスクにおいて、DIPと非常によく似た性能を示すことを示した。
- 参考スコア(独自算出の注目度): 39.157381655515856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Deep Image Prior (DIP), a Convolutional Neural Network (CNN) is fitted to
map a latent space to a degraded (e.g. noisy) image but in the process learns
to reconstruct the clean image. This phenomenon is attributed to CNN's internal
image-prior. We revisit the DIP framework, examining it from the perspective of
a neural implicit representation. Motivated by this perspective, we replace the
random or learned latent with Fourier-Features (Positional Encoding). We show
that thanks to the Fourier features properties, we can replace the convolution
layers with simple pixel-level MLPs. We name this scheme ``Positional Encoding
Image Prior" (PIP) and exhibit that it performs very similarly to DIP on
various image-reconstruction tasks with much less parameters required.
Additionally, we demonstrate that PIP can be easily extended to videos, where
3D-DIP struggles and suffers from instability. Code and additional examples for
all tasks, including videos, are available on the project page
https://nimrodshabtay.github.io/PIP/
- Abstract(参考訳): 深部画像先行(dip)では、畳み込みニューラルネットワーク(cnn)を装着して、潜在空間を劣化した(例えばノイズの多い)画像にマッピングするが、その過程でクリーン画像の再構築を学習する。
この現象はCNNの内部イメージ優先によるものである。
我々は、神経の暗黙的な表現の観点から、ディップフレームワークを再検討する。
この観点から、ランダムもしくは学習済みの潜伏語をフーリエ・フィーチャース (Positional Encoding) に置き換える。
本稿では,Fourierの機能特性により,単純なピクセルレベルのMPPで畳み込み層を置き換えることができることを示す。
我々は、このスキームを ``positional encoding image prior" (pip) と命名し、パラメータの少ない様々な画像再構成タスクのディップと非常によく似た性能を示す。
さらに,PIPは3D-DIPが苦労して不安定なビデオに容易に拡張できることを示した。
ビデオを含むすべてのタスクのコードと追加の例は、プロジェクトページhttps://nimrodshabtay.github.io/pip/で見ることができる。
関連論文リスト
- Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - Pixel-Grounded Prototypical Part Networks [33.408034817820834]
原型部分ニューラルネットワーク(ProtoPartNN)は、機械学習に対する本質的に解釈可能なアプローチである。
これらの根底にある問題からの減退は、可視化の多彩な性質と直観への過度な依存によるものである、と我々は主張する。
本稿では,意味的ローカライゼーションのための新しい受容的フィールドベースアーキテクチャ制約と,ProtoPartNNに対する原理的ピクセル空間マッピングを提案する。
論文 参考訳(メタデータ) (2023-09-25T21:09:49Z) - PS-NeRV: Patch-wise Stylized Neural Representations for Videos [13.14511356472246]
PS-NeRVは、動画をパッチと対応するパッチ座標の関数として表現する。
画像ワイド手法の利点を自然に受け継ぎ、高速な復号化速度で優れた復号化性能を実現する。
論文 参考訳(メタデータ) (2022-08-07T14:45:30Z) - View Synthesis with Sculpted Neural Points [64.40344086212279]
暗黙の神経表現は印象的な視覚的品質を達成したが、計算効率に欠点がある。
本稿では,点雲を用いたビュー合成を行う新しい手法を提案する。
レンダリング速度を100倍以上速くしながら、NeRFよりも視覚的品質を向上する最初のポイントベース手法である。
論文 参考訳(メタデータ) (2022-05-12T03:54:35Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z) - COIN: COmpression with Implicit Neural representations [64.02694714768691]
画像圧縮のための新しい簡易手法を提案する。
画像の各ピクセルのRGB値を格納する代わりに、画像に過度に適合したニューラルネットワークの重みを格納する。
論文 参考訳(メタデータ) (2021-03-03T10:58:39Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。