論文の概要: SCENE: Semantic-aware Codec Enhancement with Neural Embeddings
- arxiv url: http://arxiv.org/abs/2601.22189v1
- Date: Thu, 29 Jan 2026 05:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:14.98603
- Title: SCENE: Semantic-aware Codec Enhancement with Neural Embeddings
- Title(参考訳): SCENE: ニューラルネットワークによる意味認識コーデックの強化
- Authors: Han-Yu Lin, Li-Wei Chen, Hung-Shin Lee,
- Abstract要約: 本稿では,知覚の忠実度を高める意味認識型事前処理フレームワークを提案する。
本手法は,視覚言語モデルからのセマンティック埋め込みを効率的な畳み込みアーキテクチャに統合する。
この結果から, セマンティック・アウェア・プレプロセッサは, 圧縮ビデオストリームの強化に有効な手法であることが示唆された。
- 参考スコア(独自算出の注目度): 9.6489283335586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compression artifacts from standard video codecs often degrade perceptual quality. We propose a lightweight, semantic-aware pre-processing framework that enhances perceptual fidelity by selectively addressing these distortions. Our method integrates semantic embeddings from a vision-language model into an efficient convolutional architecture, prioritizing the preservation of perceptually significant structures. The model is trained end-to-end with a differentiable codec proxy, enabling it to mitigate artifacts from various standard codecs without modifying the existing video pipeline. During inference, the codec proxy is discarded, and SCENE operates as a standalone pre-processor, enabling real-time performance. Experiments on high-resolution benchmarks show improved performance over baselines in both objective (MS-SSIM) and perceptual (VMAF) metrics, with notable gains in preserving detailed textures within salient regions. Our results show that semantic-guided, codec-aware pre-processing is an effective approach for enhancing compressed video streams.
- Abstract(参考訳): 標準的なビデオコーデックからの圧縮アーティファクトは知覚品質を劣化させることが多い。
本稿では,これらの歪みに選択的に対処し,知覚の忠実度を高める軽量な意味認識型前処理フレームワークを提案する。
本手法は,視覚言語モデルからのセマンティック埋め込みを効率的な畳み込みアーキテクチャに統合し,知覚的に重要な構造の保存を優先する。
モデルは、差別化可能なコーデックプロキシでエンドツーエンドにトレーニングされており、既存のビデオパイプラインを変更することなく、さまざまな標準コーデックからアーティファクトを緩和することができる。
推論中、コーデックプロキシは破棄され、SCENEはスタンドアロンのプリプロセッサとして動作し、リアルタイムのパフォーマンスを実現する。
高解像度ベンチマークの実験では、客観的(MS-SSIM)と知覚的(VMAF)メトリクスの両方において、ベースラインよりもパフォーマンスが向上し、顕著な領域での詳細なテクスチャの保存に顕著な利益が得られた。
提案手法は, セマンティック誘導型コーデック対応プリプロセッシングが, 圧縮ビデオストリームの強化に有効であることを示す。
関連論文リスト
- Content Adaptive based Motion Alignment Framework for Learned Video Compression [72.13599533975413]
本稿では,コンテンツ適応型モーションアライメントフレームワークを提案する。
まず、粗いオフセット予測とマスク変調により動き補償を洗練させる2段階の流動誘導変形防止機構を導入する。
第2に,基準品質に基づいて歪み重みを調整するマルチ参照品質認識戦略を提案する。
第3に,スムーズな動き推定を得るために,フレームを大きさと解像度でダウンサンプルするトレーニングフリーモジュールを統合する。
論文 参考訳(メタデータ) (2025-12-15T02:51:47Z) - Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。