論文の概要: NVC-1B: A Large Neural Video Coding Model
- arxiv url: http://arxiv.org/abs/2407.19402v1
- Date: Sun, 28 Jul 2024 05:12:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 18:22:10.249085
- Title: NVC-1B: A Large Neural Video Coding Model
- Title(参考訳): NVC-1B:大規模ニューラルビデオ符号化モデル
- Authors: Xihua Sheng, Chuanbo Tang, Li Li, Dong Liu, Feng Wu,
- Abstract要約: 我々は10億以上のパラメーターを持つ最初のニューラルビデオ符号化モデル -- NVC-1B -- を設計する。
実験結果から,提案する大規模モデルにより,映像圧縮性能が大幅に向上することが示唆された。
我々は、大規模なモデルがビデオコーディング技術を次のレベルに引き上げることを期待している。
- 参考スコア(独自算出の注目度): 36.66792728623893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emerging large models have achieved notable progress in the fields of natural language processing and computer vision. However, large models for neural video coding are still unexplored. In this paper, we try to explore how to build a large neural video coding model. Based on a small baseline model, we gradually scale up the model sizes of its different coding parts, including the motion encoder-decoder, motion entropy model, contextual encoder-decoder, contextual entropy model, and temporal context mining module, and analyze the influence of model sizes on video compression performance. Then, we explore to use different architectures, including CNN, mixed CNN-Transformer, and Transformer architectures, to implement the neural video coding model and analyze the influence of model architectures on video compression performance. Based on our exploration results, we design the first neural video coding model with more than 1 billion parameters -- NVC-1B. Experimental results show that our proposed large model achieves a significant video compression performance improvement over the small baseline model, and represents the state-of-the-art compression efficiency. We anticipate large models may bring up the video coding technologies to the next level.
- Abstract(参考訳): 新興の大規模モデルは自然言語処理とコンピュータビジョンの分野で顕著な進歩を遂げた。
しかし、ニューラルビデオ符号化のための大きなモデルはまだ探索されていない。
本稿では,大規模なニューラルビデオ符号化モデルの構築方法について検討する。
小さなベースラインモデルに基づいて,モーションエンコーダ・デコーダ,モーションエンコーダ・デコーダ・コンテクストエンコーダ・デコーダ・コンテクストエンコーダ・デコーダ・コンテクストエントロピー・モデル,時間的コンテキストマイニング・モジュールなどの異なる符号化部品のモデルサイズを徐々にスケールアップし,映像圧縮性能に対するモデルサイズの影響を分析する。
次に、CNN、混合CNN-Transformer、Transformerアーキテクチャなどの異なるアーキテクチャを用いて、ニューラルビデオ符号化モデルを実装し、ビデオ圧縮性能に対するモデルアーキテクチャの影響を分析する。
調査の結果に基づいて、我々は10億以上のパラメーターを持つ最初のニューラルビデオ符号化モデル -- NVC-1B -- を設計した。
実験結果から,提案する大規模モデルでは,小型のベースラインモデルよりも映像圧縮性能が向上し,最先端の圧縮効率が向上することが示された。
我々は、大規模なモデルがビデオコーディング技術を次のレベルに引き上げることを期待している。
関連論文リスト
- Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.38606213726906]
本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。
本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。
初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
論文 参考訳(メタデータ) (2024-08-15T16:41:55Z) - Model Compression and Efficient Inference for Large Language Models: A
Survey [20.199282252344396]
大きな言語モデルは、より小さなモデルに比べて2つの顕著な特徴を持つ。
大きなモデルの最も顕著な側面は、モデルの微調整やトレーニングに関連する非常に高いコストである。
大規模モデルは、1つのタスクのパフォーマンスよりも、汎用性と一般化を強調する。
論文 参考訳(メタデータ) (2024-02-15T06:58:30Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Insights from Generative Modeling for Neural Video Compression [31.59496634465347]
本稿では,深部自己回帰・潜時可変モデリングのレンズを用いたニューラルビデオ符号化アルゴリズムを提案する。
本稿では,高解像度映像に対して最先端の映像圧縮性能を実現するアーキテクチャを提案する。
さらに、生成的モデリングの観点から、ニューラルビデオ符号化の分野を前進させることができることを示す。
論文 参考訳(メタデータ) (2021-07-28T02:19:39Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。