論文の概要: Kelvin v1.0: A Neural Pre-Encoder for H.264: A standards-compliant learned preprocessor with -27.62% BD-VMAF on UVG
- arxiv url: http://arxiv.org/abs/2605.16376v1
- Date: Sun, 10 May 2026 22:05:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.304413
- Title: Kelvin v1.0: A Neural Pre-Encoder for H.264: A standards-compliant learned preprocessor with -27.62% BD-VMAF on UVG
- Title(参考訳): Kelvin v1.0: H.264用のニューラルプリエンコーダ:-27.62%のBD-VMAFを持つ標準準拠の学習前プロセッサ
- Authors: Marco Graziano,
- Abstract要約: Kelvinは軽量の学習済みエンコーダで、未修正のlibx264エンコーダの前にある。
1チャンネルあたり+/-1/255でバウンドされたコンテント適応型ピクセル調整を適用し、エンコーダが重要なビットを割り当てる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Kelvin is a lightweight learned pre-encoder that sits in front of an unmodified libx264 encoder. It applies content-adaptive pixel adjustments, bounded at +/-1/255 per channel, so that the encoder allocates bits where they matter most perceptually, while emitting a standard H.264 bitstream compatible with every existing decoder, player, and CDN. On the seven-sequence 1080p UVG benchmark, Kelvin v1.0 achieves a mean BD-VMAF of -27.62% (7 of 7 wins) and BD-VMAF-NEG of -5.18% (6 of 7 wins) relative to baseline libx264 at preset medium. On the 30-sequence MCL-JCV public set (28 unseen by training), the same checkpoint wins on 28 of 30 clips by BD-VMAF; with the two diagnosable failures removed the mean is -27.70% BD-VMAF and -5.37% BD-VMAF-NEG, consistent with UVG to within one percentage point. A central engineering challenge is the non-differentiability of H.264: we describe a hybrid codec proxy that combines a calibrated differentiable rate estimator (Spearman rho = 0.986 vs. real libx264 bits-per-pixel) with a U-Net distortion proxy trained on real encoder outputs. We publish full per-sequence rate-distortion data, a named failure-mode taxonomy on MCL-JCV (rate-floor violation, distribution shift, metric saturation), a five-baseline sanity panel (hqdn3d, unsharp, -tune psnr, -tune ssim, x265 medium), and honest positioning: x265 medium beats Kelvin on every metric on the same corpus. Kelvin is therefore designed for workloads where remaining on H.264 is a constraint rather than a choice.
- Abstract(参考訳): Kelvinは軽量の学習済みエンコーダで、未修正のlibx264エンコーダの前にある。
1チャンネルあたり+/-1/255でバウンドされたコンテント適応型ピクセル調整を適用し、エンコーダは、すべての既存のデコーダ、プレーヤ、CDNと互換性のある標準のH.264ビットストリームを出力しながら、最も重要なビットを知覚的に割り当てる。
7シークエンス1080p UVGベンチマークでは、Kelvin v1.0は平均BD-VMAFの-27.62%(7勝中7勝)、BD-VMAF-NEGの5.18%(7勝中6勝)をプリセット媒体のベースラインlibx264と比較して達成している。
30行のMCL-JCV公開セット(トレーニングで28回は見つからない)では、同じチェックポイントがBD-VMAFが30クリップ中28クリップで勝利し、2つの診断可能な障害が除去され、平均値は-27.70% BD-VMAFと-5.37% BD-VMAF-NEGとなり、UVGと一致している。
H.264の非微分性は、H.264の非微分可能性である: キャリブレーションされた微分可能なレート推定器(Spearman rho = 0.986 vs. real libx264 bits-pixel)と実際のエンコーダ出力に基づいて訓練されたU-Net歪みプロキシを組み合わせたハイブリッドコーデックプロキシを記述する。
MCL-JCV (rate-floor violation, distribution shift, metric saturation), 5-baseline sanity panel (hqdn3d, unsharp, -tune psnr, -tune ssim, x265 medium), and honest positioning: x265 medium beats Kelvin on the same corpus。
したがってKelvinは、H.264に残るワークロードが選択ではなく制約であるように設計されている。
関連論文リスト
- TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos [51.99176811574457]
Inlicit Neural Representations (INRs) は、最近ビデオ圧縮における印象的な性能を実証した。
しかし、エンコーディング効率を維持しながら高解像度ビデオへのスケーリングは依然として大きな課題である。
3つの重要なコントリビューションを通じて、これらの基本的な制限に対処します。
我々は,UVG,HEVC,MCL-JCVで480p,720p,1080pで実験を行った最初のハイパーネットワークアプローチである。
論文 参考訳(メタデータ) (2026-02-18T18:59:55Z) - Emerging Standards for Machine-to-Machine Video Coding [0.9368339942045111]
Video Coding for Machines (VCM) は、ピクセル領域にタスク対応のコーディングツールを適用するように設計されている。
Feature Coding for Machines (FCM) は中間的ニューラル特徴を圧縮するように設計されている。
FCMは計算量を大幅に削減しつつ、エッジに近い精度を維持することができる。
論文 参考訳(メタデータ) (2025-12-11T02:27:49Z) - CoD: A Diffusion Foundation Model for Image Compression [57.572664625372106]
既存の拡散コーデックは、通常、安定拡散のようなテキストから画像への拡散基盤モデルに基づいて構築される。
textbfCoDは、圧縮と生成の両方のエンドツーエンドの最適化を可能にするために、ゼロからトレーニングすることができる。
論文 参考訳(メタデータ) (2025-11-24T03:00:15Z) - Generative Latent Coding for Ultra-Low Bitrate Image and Video Compression [61.500904231491596]
画像圧縮とビデオ圧縮のほとんどの手法は、画素空間における変換符号化を行い、冗長性を低減する。
画像とビデオの圧縮, GLCイメージ, GLC-Video のための textbfGenerative textbfLatent textbfGLC (textbfGLC) モデルを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:31:33Z) - Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - A Perspective on Deep Vision Performance with Standard Image and Video Codecs [41.73262031925552]
エッジデバイスや携帯電話などのリソース制約のあるハードウェアは、ディープビジョンモデルにおける推論に必要な計算リソースを提供するために、クラウドサーバーに依存していることが多い。
本稿では,ディープビジョンパイプラインにおける標準化コーデックの導入がもたらす意味について検討する。
JPEGとH.264の符号化により、幅広い視覚タスクやモデルにおける精度が大幅に低下することがわかった。
論文 参考訳(メタデータ) (2024-04-18T16:58:05Z) - Towards Real-Time Neural Video Codec for Cross-Platform Application
Using Calibration Information [17.141950680993617]
浮動小数点演算によるクロスプラットフォームの計算誤差は、ビットストリームの不正確な復号につながる可能性がある。
符号化と復号処理の計算複雑性が高いことは、リアルタイムのパフォーマンスを達成する上での課題である。
リアルタイムクロスプラットフォームのニューラルビデオは、コンシューマグレードのGPU上で、他のエンコーディングプラットフォームから720Pビデオのビットストリームを効率的に復号することができる。
論文 参考訳(メタデータ) (2023-09-20T13:01:15Z) - Graph Neural Networks for Channel Decoding [71.15576353630667]
低密度パリティチェック(LDPC)やBCH符号など、様々な符号化方式の競合復号性能を示す。
ニューラルネットワーク(NN)は、与えられたグラフ上で一般化されたメッセージパッシングアルゴリズムを学習する。
提案するデコーダを,従来のチャネル復号法および最近のディープラーニングに基づく結果と比較した。
論文 参考訳(メタデータ) (2022-07-29T15:29:18Z) - ELF-VC: Efficient Learned Flexible-Rate Video Coding [61.10102916737163]
低レイテンシモードの性能向上を実現するための,学習ビデオ圧縮のための新しいアイデアをいくつか提案する。
一般的なビデオテストセット UVG と MCL-JCV 上で,ELF-VC と呼ぶ手法をベンチマークする。
我々の手法は少なくとも5倍高速に動作し、これらの数値を報告するすべてのMLコーデックよりもパラメータが少ない。
論文 参考訳(メタデータ) (2021-04-29T17:50:35Z) - Can Learned Frame-Prediction Compete with Block-Motion Compensation for
Video Coding? [10.329264495669028]
プレトレーニングされた深度モデルを用いて,次のフレーム予測を行う場合,ブロックモーション補償に基づく標準的なビデオコーデックと競合するかどうかを検討する。
また,10MPEGテストビデオのx264に比べて,対称的複雑性を持つ単純さの速度歪み性能は平均的に優れているが,x265のレベルには達していないことを示す。
論文 参考訳(メタデータ) (2020-07-17T11:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。