論文の概要: LiteVPNet: A Lightweight Network for Video Encoding Control in Quality-Critical Applications
- arxiv url: http://arxiv.org/abs/2510.12379v1
- Date: Tue, 14 Oct 2025 10:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.284464
- Title: LiteVPNet: A Lightweight Network for Video Encoding Control in Quality-Critical Applications
- Title(参考訳): LiteVPNet:品質クリティカルなアプリケーションにおけるビデオエンコーディング制御のための軽量ネットワーク
- Authors: Vibhoothi Vibhoothi, François Pitié, Anil Kokaram,
- Abstract要約: NVENC AV1エンコーダの量子化パラメータを正確に予測するための軽量ニューラルネットワーク(LiteVPNet)を提案する。
ビットストリーム特性、ビデオ複雑性測定、CLIPベースのセマンティック埋め込みなど、低複雑さの機能を使用します。
LiteVPNetは、さまざまな品質目標に対して、平均VMAFエラーを1.2ポイント以下で達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the last decade, video workflows in the cinema production ecosystem have presented new use cases for video streaming technology. These new workflows, e.g. in On-set Virtual Production, present the challenge of requiring precise quality control and energy efficiency. Existing approaches to transcoding often fall short of these requirements, either due to a lack of quality control or computational overhead. To fill this gap, we present a lightweight neural network (LiteVPNet) for accurately predicting Quantisation Parameters for NVENC AV1 encoders that achieve a specified VMAF score. We use low-complexity features, including bitstream characteristics, video complexity measures, and CLIP-based semantic embeddings. Our results demonstrate that LiteVPNet achieves mean VMAF errors below 1.2 points across a wide range of quality targets. Notably, LiteVPNet achieves VMAF errors within 2 points for over 87% of our test corpus, c.f. approx 61% with state-of-the-art methods. LiteVPNet's performance across various quality regions highlights its applicability for enhancing high-value content transport and streaming for more energy-efficient, high-quality media experiences.
- Abstract(参考訳): 過去10年間で、映画制作エコシステムにおけるビデオワークフローは、ビデオストリーミング技術の新たなユースケースを提示してきた。
これらの新しいワークフロー、例えばOn-set Virtual Productionは、正確な品質管理とエネルギー効率を必要とする課題を提示している。
既存のトランスコーディングのアプローチは、品質管理の欠如や計算オーバーヘッドのため、これらの要件を欠いていることが多い。
このギャップを埋めるために、特定VMAFスコアを達成するNVENC AV1エンコーダの量子化パラメータを正確に予測する軽量ニューラルネットワーク(LiteVPNet)を提案する。
ビットストリーム特性、ビデオ複雑性測定、CLIPベースのセマンティック埋め込みなど、低複雑さの機能を使用します。
この結果から,LiteVPNet は VMAF の誤差が 1.2 点以下で,幅広い品質目標を達成できることが示された。
特に、LiteVPNetは、テストコーパスの87%でVMAFエラーを2ポイント以内に達成している。
LiteVPNetのさまざまな品質領域におけるパフォーマンスは、よりエネルギー効率が高く高品質なメディアエクスペリエンスを実現するために、高価値なコンテンツ転送とストリーミングを強化するための適用性を強調している。
関連論文リスト
- Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - Breaking the Encoder Barrier for Seamless Video-Language Understanding [22.749949819082484]
視覚エンコーダに依存しないニュアンス付きビデオ言語インタラクションを直接モデル化するエンコーダフリーLLMであるELVAを提案する。
公開されているビデオテキストペアはわずか700万で、ELVAはエンコーダベースのVideo-LLMと同等のパフォーマンスを実現し、FLOPを最大95%削減し、推論遅延を92%削減した。
論文 参考訳(メタデータ) (2025-03-24T08:06:39Z) - EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。
我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。
統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:58Z) - RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。
したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。
ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-21T15:36:08Z) - COEF-VQ: Cost-Efficient Video Quality Understanding through a Cascaded Multimodal LLM Framework [12.255542503707172]
COEF-VQは、ショートビデオプラットフォームにおけるビデオ品質の理解を高めるために設計された、斬新なケースケードMLLMフレームワークである。
我々のフレームワークは、完全なMLLMデプロイメントの強力な分類性能を維持しながら、GPU使用率を著しく削減する。
論文 参考訳(メタデータ) (2024-12-11T08:10:32Z) - UL-VIO: Ultra-lightweight Visual-Inertial Odometry with Noise Robust Test-time Adaptation [12.511829774226113]
視覚-慣性整合性に基づくテスト時間適応(TTA)が可能な超軽量 (1M) 視覚慣性オドメトリー (VIO) ネットワークを提案する。
KITTIデータセットで1分間のエラー増加 – 1% – で、最先端のネットワークサイズよりも36倍小さなネットワークサイズを実現している。
論文 参考訳(メタデータ) (2024-09-19T22:24:14Z) - Enhanced adaptive cross-layer scheme for low latency HEVC streaming over
Vehicular Ad-hoc Networks (VANETs) [2.2124180701409233]
HEVCはVehicular Ad-hoc Networks (VANET)を通じてリアルタイムビデオストリーミングを約束している
低遅延制約下でのVANETにおけるHEVCビデオストリーミングのエンドツーエンド性能を改善するために,低複雑性のクロス層機構を提案する。
提案機構は802.11pで採用されているEDCAと比較して、受信時の映像品質とエンドツーエンド遅延に関する大幅な改善を提供する。
論文 参考訳(メタデータ) (2023-11-05T14:19:38Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z) - VID-WIN: Fast Video Event Matching with Query-Aware Windowing at the
Edge for the Internet of Multimedia Things [3.222802562733787]
VID-WINは、エッジクラウドパラダイムでビデオイベント分析を加速するための適応型2段階アライメントウィンドウリングアプローチです。
VID-WINは、ビデオコンテンツと入力ノブを利用して、ノード間のビデオ推論プロセスを加速する。
論文 参考訳(メタデータ) (2021-04-27T10:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。