論文の概要: T-Code: Simple Temporal Latent Code for Efficient Dynamic View Synthesis
- arxiv url: http://arxiv.org/abs/2312.11015v1
- Date: Mon, 18 Dec 2023 08:31:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 20:55:00.019021
- Title: T-Code: Simple Temporal Latent Code for Efficient Dynamic View Synthesis
- Title(参考訳): T符号:効率的な動的ビュー合成のための簡易時間遅延符号
- Authors: Zhenhuan Liu, Shuai Liu, Jie Yang, Wei Liu
- Abstract要約: 本稿では,時間次元のみの効率的な非結合遅延符号であるT-Codeについて述べる。
我々は,マルチカメラ設定のための高コンパクトなハイブリッドニューラルネットワークプリミティブ (HybridNGP) と,モノクロシナリオのためのT-Code (DNGP-T) を用いたニューラルネットワークプリミティブを提案する。
- 参考スコア(独自算出の注目度): 10.80308375955974
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Novel view synthesis for dynamic scenes is one of the spotlights in computer
vision. The key to efficient dynamic view synthesis is to find a compact
representation to store the information across time. Though existing methods
achieve fast dynamic view synthesis by tensor decomposition or hash grid
feature concatenation, their mixed representations ignore the structural
difference between time domain and spatial domain, resulting in sub-optimal
computation and storage cost. This paper presents T-Code, the efficient
decoupled latent code for the time dimension only. The decomposed feature
design enables customizing modules to cater for different scenarios with
individual specialty and yielding desired results at lower cost. Based on
T-Code, we propose our highly compact hybrid neural graphics primitives
(HybridNGP) for multi-camera setting and deformation neural graphics primitives
with T-Code (DNGP-T) for monocular scenario. Experiments show that HybridNGP
delivers high fidelity results at top processing speed with much less storage
consumption, while DNGP-T achieves state-of-the-art quality and high training
speed for monocular reconstruction.
- Abstract(参考訳): 動的シーンのための新しいビュー合成はコンピュータビジョンにおけるスポットライトの1つである。
効率的な動的ビュー合成の鍵は、時間にわたって情報を格納するコンパクトな表現を見つけることである。
既存の手法はテンソル分解やハッシュグリッド機能結合による高速ダイナミックビュー合成を実現するが、それらの混合表現は時間領域と空間領域の構造的差異を無視し、結果としてサブ最適計算と記憶コストをもたらす。
本稿では,時間次元のみの効率的な非結合遅延符号であるT-Codeについて述べる。
分解された機能設計により、モジュールをカスタマイズすることで、個々の専門性を備えたさまざまなシナリオに対応でき、低コストで望ましい結果が得られる。
本稿では,T-Code(DNGP-T)を用いたマルチカメラ設定および変形型ニューラルネットワークプリミティブのための,高コンパクトなハイブリッドニューラルネットワークプリミティブ(HybridNGP)を提案する。
実験の結果,HybridNGPはトップ処理速度で高い忠実度を実現し,ストレージ消費をはるかに低減し,DNGP-Tはモノクル再構成のための最先端品質と高いトレーニング速度を実現していることがわかった。
関連論文リスト
- D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis [31.90503003079933]
我々は、ニューラルネットワークによる明示的な動的メッシュをエンコードする新しいハイブリッド表現であるDynamic Tetrahedra(DynTet)を紹介する。
以前の研究と比較すると、DynTetは様々なメトリクスに従って忠実さ、唇の同期、リアルタイムのパフォーマンスを著しく改善している。
論文 参考訳(メタデータ) (2024-02-27T09:56:15Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Exemplar-bsaed Pattern Synthesis with Implicit Periodic Field Network [21.432274505770394]
本稿では、視覚パターンの内部統計をモデル化し、新しい多目的パターンを生成することを目的とした、模範に基づく視覚パターン合成フレームワークを提案する。
GAN(Generative Adversarial Network)と周期符号化に基づく暗黙ネットワークにより,我々のネットワークをIPFN(Implicit Periodic Network)と呼ぶ。
論文 参考訳(メタデータ) (2022-04-04T17:36:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。