論文の概要: Optimal Video Compression using Pixel Shift Tracking
- arxiv url: http://arxiv.org/abs/2406.19630v1
- Date: Fri, 28 Jun 2024 03:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 18:00:20.133629
- Title: Optimal Video Compression using Pixel Shift Tracking
- Title(参考訳): Pixel Shift Tracking を用いた最適映像圧縮
- Authors: Hitesh Saai Mananchery Panneerselvam, Smit Anand,
- Abstract要約: 本稿では,映像圧縮における主要なアプローチとして,映像のフレームの冗長性除去手法を提案する。
Shift (Rtextsuperscript2S) を用いた冗長除去手法をこの手法と呼ぶ。
本研究では,コンピュータビジョンに基づく画素点追跡手法を用いて,冗長な画素を識別し,最適な記憶のために映像を符号化した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Video comprises approximately ~85\% of all internet traffic, but video encoding/compression is being historically done with hard coded rules, which has worked well but only to a certain limit. We have seen a surge in video compression algorithms using ML-based models in the last few years and many of them have outperformed several legacy codecs. The models range from encoding video end to end using an ML approach or replacing some intermediate steps in legacy codecs using ML models to increase the efficiency of those steps. Optimizing video storage is an essential aspect of video processing, so we are proposing one of the possible approaches to achieve it is by avoiding redundant data at each frame. In this paper, we want to introduce the approach of redundancies removal in subsequent frames for a given video as a main approach for video compression. We call this method Redundancy Removal using Shift (R\textsuperscript2S). This method can be utilized across various Machine Learning model algorithms, and make the compression more accessible and adaptable. In this study, we have utilized a computer vision-based pixel point tracking method to identify redundant pixels to encode video for optimal storage.
- Abstract(参考訳): ビデオは全インターネットトラフィックの約85%を占めていますが、ビデオエンコーディング/圧縮は歴史的にハードコードされたルールで行われています。
ここ数年、MLベースのモデルを用いたビデオ圧縮アルゴリズムが急増しており、その多くはレガシーコーデックよりも優れています。
モデルは、MLアプローチを使用してビデオのエンドツーエンドのエンコーディングから、MLモデルを使用してレガシーコーデックの中間ステップを置き換えて、これらのステップの効率を高めるまで、さまざまです。
ビデオストレージの最適化はビデオ処理の重要な側面であり,各フレームに冗長なデータを避けることによって実現可能なアプローチの1つを提案する。
本稿では,映像圧縮の主なアプローチとして,映像のフレームに冗長性除去のアプローチを導入する。
この手法をShift (R\textsuperscript2S) を用いた冗長除去と呼ぶ。
この方法は、さまざまな機械学習モデルアルゴリズムにまたがって利用することができ、圧縮をよりアクセシビリティと適応性を高めることができる。
本研究では,コンピュータビジョンに基づく画素点追跡手法を用いて,冗長な画素を識別し,最適な記憶のために映像を符号化した。
関連論文リスト
- CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Predictive Coding For Animation-Based Video Compression [13.161311799049978]
本稿では,画像アニメーションを予測器として用いる予測符号化手法を提案し,実際の対象フレームに対する残差を符号化する。
実験の結果,HEVCビデオ標準に比べて70%以上,VVCに比べて30%以上,有意な上昇を示した。
論文 参考訳(メタデータ) (2023-07-09T14:40:54Z) - Rate-Perception Optimized Preprocessing for Video Coding [15.808458228130261]
本稿では,レート・ディストーション性能を向上させるために,レート・パーセプション最適化前処理(RPP)手法を提案する。
RPP法は非常にシンプルで効率的であり,ビデオエンコーディング,ストリーミング,デコードの設定に何ら変更を加える必要もない。
主観的視覚的品質テストでは、87%のユーザが、RPPで圧縮した動画を約12%圧縮するだけで、RPPで動画がより良く、あるいは同等であると考えている。
論文 参考訳(メタデータ) (2023-01-25T08:21:52Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文 参考訳(メタデータ) (2022-10-06T15:35:49Z) - Speeding Up Action Recognition Using Dynamic Accumulation of Residuals
in Compressed Domain [2.062593640149623]
ビデオ処理アルゴリズムに関して、時間的冗長性と生ビデオの重大性は、最も一般的な2つの問題である。
本稿では,光部分復号処理によって得られる圧縮ビデオで直接利用できる残差データの利用法を提案する。
圧縮された領域に蓄積された残留物にのみニューラルネットワークを適用することで、性能が向上する一方、分類結果は生のビデオアプローチと非常に競合する。
論文 参考訳(メタデータ) (2022-09-29T13:08:49Z) - Microdosing: Knowledge Distillation for GAN based Compression [18.140328230701233]
そこで本研究では,知識蒸留を利用した画像デコーダの有効化について,元のパラメータ数のごく一部で示す。
これにより、モデルサイズを20倍に削減し、デコード時間の50%削減を実現できます。
論文 参考訳(メタデータ) (2022-01-07T14:27:16Z) - ELF-VC: Efficient Learned Flexible-Rate Video Coding [61.10102916737163]
低レイテンシモードの性能向上を実現するための,学習ビデオ圧縮のための新しいアイデアをいくつか提案する。
一般的なビデオテストセット UVG と MCL-JCV 上で,ELF-VC と呼ぶ手法をベンチマークする。
我々の手法は少なくとも5倍高速に動作し、これらの数値を報告するすべてのMLコーデックよりもパラメータが少ない。
論文 参考訳(メタデータ) (2021-04-29T17:50:35Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。