論文の概要: 3D Scene Compression through Entropy Penalized Neural Representation
Functions
- arxiv url: http://arxiv.org/abs/2104.12456v1
- Date: Mon, 26 Apr 2021 10:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:24:21.808716
- Title: 3D Scene Compression through Entropy Penalized Neural Representation
Functions
- Title(参考訳): entropy penalized neural representation functionによる3次元シーン圧縮
- Authors: Thomas Bird, Johannes Ball\'e, Saurabh Singh, Philip A. Chou
- Abstract要約: 新しいビジュアルメディアは、元のビューの離散セットを補間することにより、視聴者が任意の視点から3dシーンを探索できるようにする。
これらのタイプのアプリケーションには、はるかに大量のストレージスペースが必要です。
3Dシーンを圧縮するための既存のアプローチは、圧縮とレンダリングの分離に基づいている。
我々は、空間座標を放射ベクトル場にマッピングする関数であるシーンの暗黙の表現を直接圧縮することでこれらのステップを統一し、任意の視点を描画するためにクエリすることができる。
本手法はシーン圧縮の最先端手法を著しく上回り,同時に高品質な再構成を実現する。
- 参考スコア(独自算出の注目度): 19.277502420759653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Some forms of novel visual media enable the viewer to explore a 3D scene from
arbitrary viewpoints, by interpolating between a discrete set of original
views. Compared to 2D imagery, these types of applications require much larger
amounts of storage space, which we seek to reduce. Existing approaches for
compressing 3D scenes are based on a separation of compression and rendering:
each of the original views is compressed using traditional 2D image formats;
the receiver decompresses the views and then performs the rendering. We unify
these steps by directly compressing an implicit representation of the scene, a
function that maps spatial coordinates to a radiance vector field, which can
then be queried to render arbitrary viewpoints. The function is implemented as
a neural network and jointly trained for reconstruction as well as
compressibility, in an end-to-end manner, with the use of an entropy penalty on
the parameters. Our method significantly outperforms a state-of-the-art
conventional approach for scene compression, achieving simultaneously higher
quality reconstructions and lower bitrates. Furthermore, we show that the
performance at lower bitrates can be improved by jointly representing multiple
scenes using a soft form of parameter sharing.
- Abstract(参考訳): いくつかの斬新なビジュアルメディアは、元のビューの離散的なセットを補間することにより、視聴者が任意の視点から3dシーンを探索できる。
2d画像と比較して、これらのタイプのアプリケーションは、はるかに大きなストレージスペースを必要とします。
3Dシーンを圧縮するための既存のアプローチは、圧縮とレンダリングの分離に基づいており、元のビューは従来の2Dイメージフォーマットを使用して圧縮され、レシーバはビューを圧縮し、それからレンダリングを実行する。
我々は、空間座標を放射ベクトル場にマッピングする関数であるシーンの暗黙の表現を直接圧縮することでこれらのステップを統一し、任意の視点を描画するためにクエリすることができる。
この機能はニューラルネットワークとして実装され、パラメータにエントロピーペナルティを用いることで、再構成と圧縮性を両立させるように共同で訓練される。
本手法はシーン圧縮の最先端手法を著しく上回り,高品質な再構成と低ビットレートを同時に達成する。
さらに,ソフトなパラメータ共有方式を用いて複数のシーンを共同で表現することで,低ビットレートの性能を向上させることができることを示す。
関連論文リスト
- Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z) - MeshLoc: Mesh-Based Visual Localization [54.731309449883284]
シーン表現を構築するために,データベースイメージ間のマッチング機能を必要としない,高密度な3Dメッシュに基づく,より柔軟な代替手段を模索する。
驚くべきことに、ニューラルネットワークのレンダリングステージなしで、これらのメッシュのレンダリングの特徴を抽出するときに、競合的な結果が得られる。
以上の結果から,高密度な3次元モデルに基づく表現は,既存の表現の代替として有望なものであり,今後の研究にとって興味深い,挑戦的な方向性を示すものと考えられる。
論文 参考訳(メタデータ) (2022-07-21T21:21:10Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Scene Representation Transformer: Geometry-Free Novel View Synthesis
Through Set-Latent Scene Representations [48.05445941939446]
コンピュータビジョンにおける古典的な問題は、インタラクティブなレートで新しいビューを描画するのに使用できる少数の画像から3Dシーン表現を推論することである。
SRT(Scene Representation Transformer)は,新しい領域のRGB画像のポーズ処理やアンポーズ処理を行う手法である。
本手法は,PSNRおよび合成データセットの速度において,最近のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-25T16:18:56Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z) - Efficient Scene Compression for Visual-based Localization [5.575448433529451]
3D再構成やシーン表現に関してカメラのポーズを推定することは、多くの複合現実とロボティクスアプリケーションにとって重要なステップである。
本研究では,制約付き二次プログラム(QP)を用いてシーン表現を圧縮する新しい手法を提案する。
公開データセットを用いた実験により,提案手法はシーン表現を高速に圧縮し,正確なポーズ推定を行うことを示す。
論文 参考訳(メタデータ) (2020-11-27T18:36:06Z) - Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation [33.71628590745982]
単眼RGB画像からボトムアップな3次元人物ポーズ推定手法を提案する。
本稿では,この表現のサイズを大幅に削減する,シンプルで効率的な圧縮手法を提案する。
提案手法は,多人・一対一の3次元ポーズ推定データセットを用いた場合と比較して,好適に機能する。
論文 参考訳(メタデータ) (2020-04-01T10:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。