論文の概要: SCENE: Semantic-aware Codec Enhancement with Neural Embeddings
- arxiv url: http://arxiv.org/abs/2601.22189v1
- Date: Thu, 29 Jan 2026 05:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:14.98603
- Title: SCENE: Semantic-aware Codec Enhancement with Neural Embeddings
- Title(参考訳): SCENE: ニューラルネットワークによる意味認識コーデックの強化
- Authors: Han-Yu Lin, Li-Wei Chen, Hung-Shin Lee,
- Abstract要約: 本稿では,知覚の忠実度を高める意味認識型事前処理フレームワークを提案する。
本手法は,視覚言語モデルからのセマンティック埋め込みを効率的な畳み込みアーキテクチャに統合する。
この結果から, セマンティック・アウェア・プレプロセッサは, 圧縮ビデオストリームの強化に有効な手法であることが示唆された。
- 参考スコア(独自算出の注目度): 9.6489283335586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compression artifacts from standard video codecs often degrade perceptual quality. We propose a lightweight, semantic-aware pre-processing framework that enhances perceptual fidelity by selectively addressing these distortions. Our method integrates semantic embeddings from a vision-language model into an efficient convolutional architecture, prioritizing the preservation of perceptually significant structures. The model is trained end-to-end with a differentiable codec proxy, enabling it to mitigate artifacts from various standard codecs without modifying the existing video pipeline. During inference, the codec proxy is discarded, and SCENE operates as a standalone pre-processor, enabling real-time performance. Experiments on high-resolution benchmarks show improved performance over baselines in both objective (MS-SSIM) and perceptual (VMAF) metrics, with notable gains in preserving detailed textures within salient regions. Our results show that semantic-guided, codec-aware pre-processing is an effective approach for enhancing compressed video streams.
- Abstract(参考訳): 標準的なビデオコーデックからの圧縮アーティファクトは知覚品質を劣化させることが多い。
本稿では,これらの歪みに選択的に対処し,知覚の忠実度を高める軽量な意味認識型前処理フレームワークを提案する。
本手法は,視覚言語モデルからのセマンティック埋め込みを効率的な畳み込みアーキテクチャに統合し,知覚的に重要な構造の保存を優先する。
モデルは、差別化可能なコーデックプロキシでエンドツーエンドにトレーニングされており、既存のビデオパイプラインを変更することなく、さまざまな標準コーデックからアーティファクトを緩和することができる。
推論中、コーデックプロキシは破棄され、SCENEはスタンドアロンのプリプロセッサとして動作し、リアルタイムのパフォーマンスを実現する。
高解像度ベンチマークの実験では、客観的(MS-SSIM)と知覚的(VMAF)メトリクスの両方において、ベースラインよりもパフォーマンスが向上し、顕著な領域での詳細なテクスチャの保存に顕著な利益が得られた。
提案手法は, セマンティック誘導型コーデック対応プリプロセッシングが, 圧縮ビデオストリームの強化に有効であることを示す。
関連論文リスト
- SCALED : Surrogate-gradient for Codec-Aware Learning of Downsampling in ABR Streaming [9.436544348188598]
現在、Over-the-Top (OTT)配信は、主にAdaptive Bitrate (ABR)ストリーミングに依存している。
ディープラーニングは、学習された再サンプリング手法を使用してABRパイプラインを共同最適化することへの関心を喚起している。
そこで本研究では,現実の非微分可能コーデックによるエンドツーエンドのトレーニングを可能にする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-30T10:38:35Z) - Content Adaptive based Motion Alignment Framework for Learned Video Compression [72.13599533975413]
本稿では,コンテンツ適応型モーションアライメントフレームワークを提案する。
まず、粗いオフセット予測とマスク変調により動き補償を洗練させる2段階の流動誘導変形防止機構を導入する。
第2に,基準品質に基づいて歪み重みを調整するマルチ参照品質認識戦略を提案する。
第3に,スムーズな動き推定を得るために,フレームを大きさと解像度でダウンサンプルするトレーニングフリーモジュールを統合する。
論文 参考訳(メタデータ) (2025-12-15T02:51:47Z) - Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。