論文の概要: MiNL: Micro-images based Neural Representation for Light Fields
- arxiv url: http://arxiv.org/abs/2209.08277v1
- Date: Sat, 17 Sep 2022 08:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:02:36.931635
- Title: MiNL: Micro-images based Neural Representation for Light Fields
- Title(参考訳): MiNL:光場のためのマイクロイメージに基づくニューラル表現
- Authors: Hanxin Zhu, Henan Wang and Zhibo Chen
- Abstract要約: ニューラルネットワークをトレーニングし、2次元座標からMI色へのマッピングを学習する光場のための新しいMIワイド暗黙表現を提案する。
MiNLの光フィールド符号化は、単にニューラルネットワークをトレーニングして、マイクロイメージを回帰させ、復号処理は単純なフィードフォワード操作である。
- 参考スコア(独自算出の注目度): 16.5647959276818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional representations for light fields can be separated into two types:
explicit representation and implicit representation. Unlike explicit
representation that represents light fields as Sub-Aperture Images (SAIs) based
arrays or Micro-Images (MIs) based lenslet images, implicit representation
treats light fields as neural networks, which is inherently a continuous
representation in contrast to discrete explicit representation. However, at
present almost all the implicit representations for light fields utilize SAIs
to train an MLP to learn a pixel-wise mapping from 4D spatial-angular
coordinate to pixel colors, which is neither compact nor of low complexity.
Instead, in this paper we propose MiNL, a novel MI-wise implicit neural
representation for light fields that train an MLP + CNN to learn a mapping from
2D MI coordinates to MI colors. Given the micro-image's coordinate, MiNL
outputs the corresponding micro-image's RGB values. Light field encoding in
MiNL is just training a neural network to regress the micro-images and the
decoding process is a simple feedforward operation. Compared with common
pixel-wise implicit representation, MiNL is more compact and efficient that has
faster decoding speed (\textbf{$\times$80$\sim$180} speed-up) as well as better
visual quality (\textbf{1$\sim$4dB} PSNR improvement on average).
- Abstract(参考訳): ライトフィールドの伝統的な表現は、明示表現と暗黙表現の2つのタイプに分けられる。
サブアパーチャ画像(SAI)ベースの配列やマイクロイメージ(MI)ベースのレンズレット画像として光場を表現する明示的表現とは異なり、暗黙的表現は光場を神経ネットワークとして扱う。
しかし、現在、光場に対する暗黙の表現は、SAIを用いて4次元空間角座標からピクセル色へのピクセルワイズマッピングを学習し、これはコンパクトでも複雑さの低いものでもない。
そこで本論文では,MLP + CNN を訓練し,2次元 MI 座標から MI 色へのマッピングを学習する光場のための新しい MI-wise implicit neural representation である MiNL を提案する。
マイクロイメージの座標から、MiNLは対応するマイクロイメージのRGB値を出力する。
MiNLの光フィールド符号化は、単にニューラルネットワークをトレーニングしてマイクロイメージを回帰させ、復号処理は単純なフィードフォワード操作である。
一般的なピクセル単位の暗示表現と比較すると、MiNLはよりコンパクトで効率的であり、より高速な復号速度(\textbf{$\times$80$\sim$180} スピードアップ)と視覚的品質(平均では\textbf{1$\sim$4dB} PSNRの改善)を持つ。
関連論文リスト
- MMPI: a Flexible Radiance Field Representation by Multiple Multi-plane
Images Blending [61.45757368117578]
本稿では,多平面画像(MPI)に基づく神経放射場のフレキシブルな表現について述べる。
MPIは、単純な定義、簡単な計算、非有界シーンを表現する強力な能力のために、NeRF学習で広く使われている。
MPIは複雑なシーンを多種多様なカメラ分布と視野方向で合成できることを示す。
論文 参考訳(メタデータ) (2023-09-30T04:36:43Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Progressive Multi-scale Light Field Networks [14.050802766699084]
複数レベルの詳細で光電場を符号化するプログレッシブ・マルチスケール光電場ネットワークを提案する。
低レベルの詳細は、プログレッシブストリーミングとレンダリング時間の短縮を可能にする、ニューラルネットワークの重みを減らしてエンコードされる。
論文 参考訳(メタデータ) (2022-08-13T19:02:34Z) - PS-NeRV: Patch-wise Stylized Neural Representations for Videos [13.14511356472246]
PS-NeRVは、動画をパッチと対応するパッチ座標の関数として表現する。
画像ワイド手法の利点を自然に受け継ぎ、高速な復号化速度で優れた復号化性能を実現する。
論文 参考訳(メタデータ) (2022-08-07T14:45:30Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - Neural Knitworks: Patched Neural Implicit Representation Networks [1.0470286407954037]
画像合成を実現する自然画像の暗黙的表現学習のためのアーキテクチャであるKnitworkを提案する。
私たちの知る限りでは、画像のインペインティング、超解像化、デノイングといった合成作業に適した座標ベースのパッチの実装は、これが初めてである。
その結果, ピクセルではなくパッチを用いた自然な画像のモデリングにより, 忠実度が高い結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T13:10:46Z) - Light Field Networks: Neural Scene Representations with
Single-Evaluation Rendering [60.02806355570514]
2次元観察から3Dシーンの表現を推定することは、コンピュータグラフィックス、コンピュータビジョン、人工知能の基本的な問題である。
そこで我々は,360度4次元光場における基礎となる3次元シーンの形状と外観の両面を表現した新しいニューラルシーン表現,光場ネットワーク(LFN)を提案する。
LFNからレイをレンダリングするには*single*ネットワークの評価しか必要としない。
論文 参考訳(メタデータ) (2021-06-04T17:54:49Z) - Visual Transformers: Token-based Image Representation and Processing for
Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文 参考訳(メタデータ) (2020-06-05T20:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。