論文の概要: INV: Towards Streaming Incremental Neural Videos
- arxiv url: http://arxiv.org/abs/2302.01532v1
- Date: Fri, 3 Feb 2023 04:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 17:32:57.419418
- Title: INV: Towards Streaming Incremental Neural Videos
- Title(参考訳): INV: ストリーミングインクリメンタルなニューラルビデオを目指して
- Authors: Shengze Wang, Alexey Supikov, Joshua Ratcliff, Henry Fuchs, Ronald
Azuma
- Abstract要約: 近年の時間的フィールドではフリービュービデオが制作されているが、本質的にインタラクティブなストリーミングには適していない。
これらのアプローチでは、処理前にフレームのチャンク(多くの場合秒)をバッファする必要がある。
私たちは、フレーム・バイ・フレームのアプローチによるインタラクティブなストリーミングを、自然にラグのない形で進めています。
- 参考スコア(独自算出の注目度): 9.77463802740227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works in spatiotemporal radiance fields can produce photorealistic
free-viewpoint videos. However, they are inherently unsuitable for interactive
streaming scenarios (e.g. video conferencing, telepresence) because have an
inevitable lag even if the training is instantaneous. This is because these
approaches consume videos and thus have to buffer chunks of frames (often
seconds) before processing. In this work, we take a step towards interactive
streaming via a frame-by-frame approach naturally free of lag. Conventional
wisdom believes that per-frame NeRFs are impractical due to prohibitive
training costs and storage. We break this belief by introducing Incremental
Neural Videos (INV), a per-frame NeRF that is efficiently trained and
streamable. We designed INV based on two insights: (1) Our main finding is that
MLPs naturally partition themselves into Structure and Color Layers, which
store structural and color/texture information respectively. (2) We leverage
this property to retain and improve upon knowledge from previous frames, thus
amortizing training across frames and reducing redundant learning. As a result,
with negligible changes to NeRF, INV can achieve good qualities (>28.6db) in
8min/frame. It can also outperform prior SOTA in 19% less training time.
Additionally, our Temporal Weight Compression reduces the per-frame size to
0.3MB/frame (6.6% of NeRF). More importantly, INV is free from buffer lag and
is naturally fit for streaming. While this work does not achieve real-time
training, it shows that incremental approaches like INV present new
possibilities in interactive 3D streaming. Moreover, our discovery of natural
information partition leads to a better understanding and manipulation of MLPs.
Code and dataset will be released soon.
- Abstract(参考訳): 時空間放射領域における最近の研究は、フォトリアリスティックな自由視点ビデオを生成することができる。
しかし、ビデオ会議やテレプレゼンスなど、インタラクティブなストリーミングシナリオには適さないのは、たとえトレーニングが瞬時に行われたとしても、避けられないラグがあるからである。
これは、これらのアプローチがビデオを利用するため、処理する前にフレームのチャンク(数秒)をバッファリングする必要があるためです。
本研究では,ラグのないフレームバイフレーム方式によるインタラクティブストリーミングへの一歩を踏み出した。
従来の知識では、フレームごとのnerfは、トレーニングコストとストレージの制限のため実用的でない。
Incremental Neural Videos (INV)は、フレームごとのNeRFで、効率よくトレーニングされ、ストリーミング可能である。
1) MLPが自然に構造層と色層に分割し,それぞれに構造情報と色/テクスチャ情報を格納する,という2つの知見に基づいてINVを設計した。
2) この特性を利用して, 従来のフレームからの知識を維持・改善し, フレーム間のトレーニングを減らし, 余分な学習を減らす。
その結果、NeRFの無視的な変更により、INVは8min/frameで優れた品質(>28.6db)を達成することができる。
また19%のトレーニング時間でSOTAよりもパフォーマンスが向上する。
さらに、テンポラルウェイト圧縮はフレーム単位のサイズを0.3MB/frame(NeRFの6.6%)に削減します。
さらに重要なのは、INVはバッファラグが不要で、ストリーミングに自然に適合することです。
この研究はリアルタイムトレーニングを達成していないが、INVのような漸進的なアプローチがインタラクティブな3Dストリーミングに新たな可能性をもたらすことを示している。
さらに, 自然情報分割の発見により, MLPの理解と操作性が向上する。
コードとデータセットはまもなくリリースされる。
関連論文リスト
- MaskVD: Region Masking for Efficient Video Object Detection [11.759503235646696]
ビデオタスクは計算量が多く、リアルタイムアプリケーションにデプロイする際の課題となる。
本稿では,ビデオフレームにおけるマスキング領域の戦略を提案する。
以前のフレームから抽出した特徴を活用することで、ViTバックボーンはリージョンマスキングの恩恵を直接受けられる。
論文 参考訳(メタデータ) (2024-07-16T08:01:49Z) - Looking Backward: Streaming Video-to-Video Translation with Feature Banks [65.46145157488344]
StreamV2Vは、ユーザプロンプトによるリアルタイムストリーミングビデオ変換(V2V)を実現する拡散モデルである。
1つのA100 GPU上で20 FPSを実行することができ、FlowVid、CoDeF、Rerender、TokenFlowよりも15x、46x、108x、158x高速である。
論文 参考訳(メタデータ) (2024-05-24T17:53:06Z) - OD-NeRF: Efficient Training of On-the-Fly Dynamic Neural Radiance Fields [63.04781030984006]
ダイナミック・ニューラル・レイディアンス・フィールド(ダイナミック・ニューラル・レイディアンス・フィールド)は、3次元ダイナミック・シーンにおける新しいビュー・シンセサイザーにおいて印象的な結果を示した。
本研究では,ダイナミックシーンのストリーミングが可能な動的NeRFを効率よく訓練・レンダリングするOD-NeRFを提案する。
本アルゴリズムは,6FPSトレーニングと合成動的シーンのレンダリングのインタラクティブな高速化を実現し,実世界の動的シーンの最先端と比較して,大幅なスピードアップを実現している。
論文 参考訳(メタデータ) (2023-05-24T07:36:47Z) - Video Event Restoration Based on Keyframes for Video Anomaly Detection [9.18057851239942]
既存のディープニューラルネットワークベースの異常検出(VAD)手法は、主にフレーム再構成やフレーム予測の経路に従う。
これらの制限を突破するために、新しいVADパラダイムを導入します。
本稿では,ビデオイベント復元のためのU字型スイニングトランスフォーマーネットワーク (USTN-DSC) を提案する。
論文 参考訳(メタデータ) (2023-04-11T10:13:19Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Learning Neural Volumetric Representations of Dynamic Humans in Minutes [49.10057060558854]
本稿では,視覚的品質の競争力のある映像から,ダイナミックな人間のニューラルボリューム映像を学習するための新しい手法を提案する。
具体的には、ネットワークの表現力をよりよく人体に分散させるために、新しい部分ベースのボクセル化人間表現を定義する。
実験により,従来のシーンごとの最適化手法よりも100倍高速に学習できることが実証された。
論文 参考訳(メタデータ) (2023-02-23T18:57:01Z) - Capturing Temporal Information in a Single Frame: Channel Sampling
Strategies for Action Recognition [19.220288614585147]
計算コストを増大させることなく、2次元ネットワークにおける映像分類のための時間情報をキャプチャする問題に対処する。
そこで我々は,短期的なフレーム・ツー・フレームの変化を捉えるために,入力ビデオのチャネルを並べ替える新しいサンプリング手法を提案する。
我々のサンプリング戦略は、スクラッチからのトレーニングを必要とせず、トレーニングとテストの計算コストを増大させません。
論文 参考訳(メタデータ) (2022-01-25T15:24:37Z) - Mega-NeRF: Scalable Construction of Large-Scale NeRFs for Virtual
Fly-Throughs [54.41204057689033]
我々は、ニューラルネットワーク(NeRF)を活用して、建物にまたがる大規模な視覚的キャプチャーや、主にドローンデータから収集された複数の都市ブロックからインタラクティブな3D環境を構築する方法について検討する。
NeRFが伝統的に評価されている単一のオブジェクトシーンとは対照的に、この設定には複数の課題がある。
我々は、訓練画像(またはむしろピクセル)を、並列で訓練できる異なるNeRFサブモジュールに分割する単純なクラスタリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-12-20T17:40:48Z) - PlenOctrees for Real-time Rendering of Neural Radiance Fields [35.58442869498845]
ニューラルラジアンスフィールド(NeRF)をリアルタイムにレンダリングする手法として,Octreeベースの3D表現であるPlenOctreesを提案する。
従来のNeRFよりも3000倍以上高速な150FPS以上の800x800画像のレンダリングが可能です。
論文 参考訳(メタデータ) (2021-03-25T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。