論文の概要: PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations
- arxiv url: http://arxiv.org/abs/2202.04713v1
- Date: Wed, 9 Feb 2022 20:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-12 08:17:48.040390
- Title: PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations
- Title(参考訳): PINs: マルチスケールニューラル表現のためのプログレッシブ・インシシシット・ネットワーク
- Authors: Zoe Landgraf, Alexander Sorkine Hornung, Ricardo Silveira Cabral
- Abstract要約: 周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
- 参考スコア(独自算出の注目度): 68.73195473089324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-layer perceptrons (MLP) have proven to be effective scene encoders when
combined with higher-dimensional projections of the input, commonly referred to
as \textit{positional encoding}. However, scenes with a wide frequency spectrum
remain a challenge: choosing high frequencies for positional encoding
introduces noise in low structure areas, while low frequencies result in poor
fitting of detailed regions. To address this, we propose a progressive
positional encoding, exposing a hierarchical MLP structure to incremental sets
of frequency encodings. Our model accurately reconstructs scenes with wide
frequency bands and learns a scene representation at progressive level of
detail \textit{without explicit per-level supervision}. The architecture is
modular: each level encodes a continuous implicit representation that can be
leveraged separately for its respective resolution, meaning a smaller network
for coarser reconstructions. Experiments on several 2D and 3D datasets show
improvements in reconstruction accuracy, representational capacity and training
speed compared to baselines.
- Abstract(参考訳): 多層パーセプトロン(MLP)は、入力の高次元投影と組み合わせることで、効果的なシーンエンコーダであることが証明されている。
しかし、周波数スペクトルの広いシーンは依然として課題であり、位置符号化のための高周波の選択は低構造領域にノイズをもたらすが、低周波数は詳細領域の適合性の悪い結果をもたらす。
そこで本研究では,周波数符号化のインクリメンタルなセットに階層型MLP構造を露出させる,プログレッシブな位置符号化を提案する。
本モデルでは,周波数帯域幅の広いシーンを正確に再構成し,プログレッシブレベルでのシーン表現を学習する。
アーキテクチャはモジュラーであり、各レベルは連続的な暗黙の表現を符号化し、それぞれの解像度で個別に利用することができる。
複数の2次元および3次元データセットでの実験では、ベースラインと比較して再構成精度、表現能力、トレーニング速度が改善された。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Refined Semantic Enhancement towards Frequency Diffusion for Video
Captioning [29.617527535279574]
ビデオキャプションは、与えられたビデオを正確に記述した自然言語文を生成することを目的としている。
既存の方法では、エンコードフェーズにおけるよりリッチな視覚表現を探索したり、復号能力を向上させることで、良好な生成が得られる。
頻繁なトークンの言語表現を常に知覚するキャプションモデルであるRSFD(Refined Semantic enhancement Method)を導入する。
論文 参考訳(メタデータ) (2022-11-28T05:45:17Z) - GAN-Based Multi-View Video Coding with Spatio-Temporal EPI
Reconstruction [19.919826392704472]
GAN(Generative Adrial Network)の画像生成機能を活用した新しい多視点ビデオ符号化手法を提案する。
エンコーダでは,時空間平面画像(EPI)デコーダを構築し,さらに畳み込みネットワークを用いてGANの潜時符号をサイド情報(SI)として抽出する。
側面では、SIと隣接する視点を組み合わせて、GANジェネレータを用いて中間ビューを再構築する。
論文 参考訳(メタデータ) (2022-05-07T08:52:54Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - SpectralFormer: Rethinking Hyperspectral Image Classification with
Transformers [91.09957836250209]
ハイパースペクトル(HS)画像は、ほぼ連続したスペクトル情報によって特徴づけられる。
CNNは、HS画像分類において強力な特徴抽出器であることが証明されている。
我々は、HS画像分類のためのulSpectralFormerと呼ばれる新しいバックボーンネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T02:59:21Z) - A Hierarchical Coding Scheme for Glasses-free 3D Displays Based on
Scalable Hybrid Layered Representation of Real-World Light Fields [0.6091702876917279]
Schemeは、異なる走査順序から決定される光界ビューのサブセットから、積み重ねた乗法レイヤを学習する。
層状パターンの空間的相関は、クリロフ部分空間上の特異値分解から導かれる係数化の低い階数で悪用される。
HEVCによるエンコーディングは、低ランク近似層におけるイントラビューおよびインタービュー相関を効率的に除去する。
論文 参考訳(メタデータ) (2021-04-19T15:09:21Z) - Modulated Periodic Activations for Generalizable Local Functional
Representations [113.64179351957888]
我々は,複数のインスタンスに一般化し,最先端の忠実性を実現する新しい表現を提案する。
提案手法は,画像,映像,形状の汎用的な機能表現を生成し,単一信号に最適化された先行処理よりも高い再構成品質を実現する。
論文 参考訳(メタデータ) (2021-04-08T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。