論文の概要: Low-Bitrate Video Compression through Semantic-Conditioned Diffusion
- arxiv url: http://arxiv.org/abs/2512.00408v1
- Date: Sat, 29 Nov 2025 09:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.225854
- Title: Low-Bitrate Video Compression through Semantic-Conditioned Diffusion
- Title(参考訳): セマンティック共振拡散による低ビットレート映像圧縮
- Authors: Lingdong Wang, Guan-Ming Su, Divya Kothandaraman, Tsung-Wei Huang, Mohammad Hajiesmaili, Ramesh K. Sitaraman,
- Abstract要約: 本報告では, 先行前の生成の詳細を頼りながら, 最も意味のある情報のみを伝達する重大障害を提案する。
条件付きビデオは、セマンティック、外観、モーションキューから高品質で時間的に整合したビデオを再構成する。
- 参考スコア(独自算出の注目度): 19.21409064179896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional video codecs optimized for pixel fidelity collapse at ultra-low bitrates and produce severe artifacts. This failure arises from a fundamental misalignment between pixel accuracy and human perception. We propose a semantic video compression framework named DiSCo that transmits only the most meaningful information while relying on generative priors for detail synthesis. The source video is decomposed into three compact modalities: a textual description, a spatiotemporally degraded video, and optional sketches or poses that respectively capture semantic, appearance, and motion cues. A conditional video diffusion model then reconstructs high-quality, temporally coherent videos from these compact representations. Temporal forward filling, token interleaving, and modality-specific codecs are proposed to improve multimodal generation and modality compactness. Experiments show that our method outperforms baseline semantic and traditional codecs by 2-10X on perceptual metrics at low bitrates.
- Abstract(参考訳): 従来のビデオコーデックは、超低ビットレートでピクセルフィデリティの崩壊に最適化され、深刻なアーティファクトを生成する。
この失敗は、画素精度と人間の知覚の根本的な相違から生じる。
本稿では,ディテール合成に先立って,最も有意義な情報のみを伝達する意味的ビデオ圧縮フレームワークDiSCoを提案する。
ソースビデオは、3つのコンパクトなモダリティに分解される: テキスト記述、時空間的に劣化したビデオ、そしてそれぞれ意味、外観、動きの手がかりをキャプチャするオプションのスケッチまたはポーズ。
条件付きビデオ拡散モデルは、これらのコンパクトな表現から高品質で時間的に整合した映像を再構成する。
マルチモーダル生成とモダリティコンパクト性を改善するため, 時間前方充填, トークンインターリービング, モーダリティ特化コーデックを提案する。
実験により,本手法は,低ビットレートの知覚的指標において,ベースライン意味と従来のコーデックを2~10倍に向上することが示された。
関連論文リスト
- Conditional Video Generation for High-Efficiency Video Compression [48.32125957038998]
本稿では,条件付き拡散モデルを利用した映像圧縮フレームワークを提案する。
具体的には、映像圧縮を条件生成タスクとして再構成し、生成モデルがスパース信号から映像を合成する。
論文 参考訳(メタデータ) (2025-07-21T06:16:27Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。