論文の概要: VcLLM: Video Codecs are Secretly Tensor Codecs
- arxiv url: http://arxiv.org/abs/2407.00467v1
- Date: Sat, 29 Jun 2024 15:24:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 03:06:00.771744
- Title: VcLLM: Video Codecs are Secretly Tensor Codecs
- Title(参考訳): VcLLM:ビデオコーデックは秘かにテンソルコーデック
- Authors: Ceyu Xu, Yongji Wu, Xinyu Yang, Beidi Chen, Matthew Lentz, Danyang Zhuo, Lisa Wu Wills,
- Abstract要約: ビデオコーデックは多目的かつ汎用的なテンソルコーデックであることを示す。
我々はGPU上で利用可能なハードウェアビデオエンコーディングとデコードモジュールを利用して、推論とトレーニングの両方が可能なフレームワークを作成します。
これにより、メモリ容量と通信帯域幅の要件が大幅に削減され、コンシューマグレードのGPU上で大規模なモデルのトレーニングと推論が可能になる。
- 参考スコア(独自算出の注目度): 22.062439249597436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the parameter size of large language models (LLMs) continues to expand, the need for a large memory footprint and high communication bandwidth have become significant bottlenecks for the training and inference of LLMs. To mitigate these bottlenecks, various tensor compression techniques have been proposed to reduce the data size, thereby alleviating memory requirements and communication pressure. Our research found that video codecs, despite being originally designed for compressing videos, show excellent efficiency when compressing various types of tensors. We demonstrate that video codecs can be versatile and general-purpose tensor codecs while achieving the state-of-the-art compression efficiency in various tasks. We further make use of the hardware video encoding and decoding module available on GPUs to create a framework capable of both inference and training with video codecs repurposed as tensor codecs. This greatly reduces the requirement for memory capacity and communication bandwidth, enabling training and inference of large models on consumer-grade GPUs.
- Abstract(参考訳): 大規模言語モデル(LLM)のパラメータサイズが拡大するにつれて、大きなメモリフットプリントと高い通信帯域の必要性が、LLMのトレーニングと推論において重大なボトルネックとなっている。
これらのボトルネックを軽減するため、データサイズを減らすために様々なテンソル圧縮技術が提案され、メモリ要求と通信圧力が軽減された。
ビデオコーデックは、もともとビデオ圧縮用に設計されたものだが、様々なタイプのテンソルを圧縮する際には、優れた効率性を示すことがわかった。
ビデオコーデックは多目的かつ汎用的なテンソルコーデックでありながら,様々なタスクにおいて最先端の圧縮効率を実現することができることを示す。
さらに、GPU上で利用可能なハードウェアビデオエンコーディングおよびデコードモジュールを利用して、テンソルコーデックとして再利用されたビデオコーデックによる推論とトレーニングの両方が可能なフレームワークを作成する。
これにより、メモリ容量と通信帯域幅の要件が大幅に削減され、コンシューマグレードのGPU上で大規模なモデルのトレーニングと推論が可能になる。
関連論文リスト
- REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。
我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - Learned Compression for Images and Point Clouds [1.7404865362620803]
この論文は、この新しい学習圧縮分野への3つの主要な貢献を提供する。
まず、符号化分布自体を側情報として圧縮送信することで、符号化分布を特定の入力に動的に適応する効率的な低複雑さエントロピーモデルを提案する。
第2に,非特殊化コーデックに比べて著しく低減された,分類に高度に特化している軽量低複雑点雲を提案する。
論文 参考訳(メタデータ) (2024-09-12T19:57:44Z) - SMC++: Masked Learning of Unsupervised Video Semantic Compression [54.62883091552163]
ビデオセマンティクスを特に保持するMasked Video Modeling (MVM) を利用した圧縮フレームワークを提案する。
MVMは、マスクされたパッチ予測タスクを通じて一般化可能なセマンティクスを学ぶのに熟練している。
また、簡単なテクスチャの詳細やビットコストの浪費、セマンティックノイズなど、意味のない情報をエンコードすることもできる。
論文 参考訳(メタデータ) (2024-06-07T09:06:40Z) - One-Click Upgrade from 2D to 3D: Sandwiched RGB-D Video Compression for Stereoscopic Teleconferencing [13.74209129258984]
本稿では, ステレオRGB-Dビデオ圧縮をサポートするために, ニューラルプレプロセッサとポストプロセッサのペアでラップすることで, 2次元映像をアップグレードする手法を提案する。
我々は、合成された4D人物データセットでニューラルプリプロセッサとポストプロセッサをトレーニングし、合成されたステレオRGB-Dビデオと実際のキャプチャーされたステレオRGB-Dビデオの両方で評価する。
提案手法は従来のビデオ符号化方式やMV-HEVCと比べ約30%のビットレートを、新しい視点から同一のレンダリング品質で保存する。
論文 参考訳(メタデータ) (2024-04-15T17:56:05Z) - C3: High-performance and low-complexity neural compression from a single
image or video [16.770509909942312]
本稿では,強速度歪み(RD)性能を有するニューラル圧縮法であるC3を紹介する。
結果として生じるC3の復号複雑性は、同様のRD性能を持つニューラルベースラインよりも桁違いに低い。
論文 参考訳(メタデータ) (2023-12-05T13:28:59Z) - Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文 参考訳(メタデータ) (2022-10-06T15:35:49Z) - Slimmable Video Codec [24.460763016660685]
本稿では,スリム化可能なオートエンコーダに,スリム化可能な時間エントロピーモデルを統合することで,スリム化可能なビデオ(SlimVC)を提案する。
より複雑なアーキテクチャにもかかわらず、スリム化はレート、メモリフットプリント、計算コスト、レイテンシを制御するための強力なメカニズムのままである。
論文 参考訳(メタデータ) (2022-05-13T16:37:27Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Microdosing: Knowledge Distillation for GAN based Compression [18.140328230701233]
そこで本研究では,知識蒸留を利用した画像デコーダの有効化について,元のパラメータ数のごく一部で示す。
これにより、モデルサイズを20倍に削減し、デコード時間の50%削減を実現できます。
論文 参考訳(メタデータ) (2022-01-07T14:27:16Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。