論文の概要: SIEDD: Shared-Implicit Encoder with Discrete Decoders
- arxiv url: http://arxiv.org/abs/2506.23382v1
- Date: Sun, 29 Jun 2025 19:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.854368
- Title: SIEDD: Shared-Implicit Encoder with Discrete Decoders
- Title(参考訳): SIEDD:離散デコーダ付き共有増幅エンコーダ
- Authors: Vikram Rangarajan, Shishira Maiya, Max Ehrlich, Abhinav Shrivastava,
- Abstract要約: Inlicit Neural Representations (INR)は、ビデオごとの最適化機能を学ぶことによって、ビデオ圧縮に例外的な忠実度を提供する。
既存のINRエンコーディングの高速化の試みは、しばしば再建品質や重要な座標レベルの制御を犠牲にしている。
これらの妥協なしにINRエンコーディングを根本的に高速化する新しいアーキテクチャであるSIEDDを紹介する。
- 参考スコア(独自算出の注目度): 36.705337163276255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implicit Neural Representations (INRs) offer exceptional fidelity for video compression by learning per-video optimized functions, but their adoption is crippled by impractically slow encoding times. Existing attempts to accelerate INR encoding often sacrifice reconstruction quality or crucial coordinate-level control essential for adaptive streaming and transcoding. We introduce SIEDD (Shared-Implicit Encoder with Discrete Decoders), a novel architecture that fundamentally accelerates INR encoding without these compromises. SIEDD first rapidly trains a shared, coordinate-based encoder on sparse anchor frames to efficiently capture global, low-frequency video features. This encoder is then frozen, enabling massively parallel training of lightweight, discrete decoders for individual frame groups, further expedited by aggressive coordinate-space sampling. This synergistic design delivers a remarkable 20-30X encoding speed-up over state-of-the-art INR codecs on HD and 4K benchmarks, while maintaining competitive reconstruction quality and compression ratios. Critically, SIEDD retains full coordinate-based control, enabling continuous resolution decoding and eliminating costly transcoding. Our approach significantly advances the practicality of high-fidelity neural video compression, demonstrating a scalable and efficient path towards real-world deployment. Our codebase is available at https://github.com/VikramRangarajan/SIEDD .
- Abstract(参考訳): Implicit Neural Representations (INRs) は、ビデオごとの最適化機能を学ぶことによって、ビデオ圧縮に例外的な忠実度を提供するが、その採用は急激なエンコーディング時間によって妨げられる。
既存のINRエンコーディングの高速化の試みは、アダプティブストリーミングやトランスコーディングに不可欠な再構成品質や座標レベルの重要な制御を犠牲にすることが多い。
SIEDD(Shared-Implicit Encoder with Discrete Decoders)を導入する。
SIEDDはまず、疎いアンカーフレーム上で共有座標ベースのエンコーダを高速に訓練し、グローバルで低周波のビデオ特徴を効率よく捉える。
このエンコーダは凍結され、個々のフレーム群に対する軽量で離散的なデコーダの大規模並列トレーニングが可能となり、さらにアグレッシブな座標空間サンプリングによって高速化される。
この相乗的設計は、HDと4Kベンチマークで最先端のINRコーデックよりも高速な20-30X符号化を実現し、競争力のある再構成品質と圧縮比を維持している。
重要な点として、SIEDDは完全な座標ベースの制御を保持しており、連続分解能の復号化とコストのかかる復号化を可能にしている。
提案手法は,高忠実度ニューラルビデオ圧縮の実用性を大幅に向上させ,実世界の展開に向けたスケーラブルで効率的な経路を実証する。
私たちのコードベースはhttps://github.com/VikramRangarajan/SIEDD で公開されています。
関連論文リスト
- StableCodec: Taming One-Step Diffusion for Extreme Image Compression [19.69733852050049]
拡散に基づく画像圧縮は、高いリアリズムで超低符号化(1ピクセルあたり0.05ビット未満)を達成するという驚くべき可能性を示している。
現在のアプローチでは、極端な制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要となる。
本稿では,高忠実度・高現実性画像圧縮のための一段階拡散を可能にするStableCodecを紹介する。
論文 参考訳(メタデータ) (2025-06-27T07:39:21Z) - Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Standard compliant video coding using low complexity, switchable neural wrappers [8.149130379436759]
標準互換性、高性能、低復号化の複雑さを特徴とする新しいフレームワークを提案する。
私たちは、標準的なビデオをラップして、異なる解像度でビデオをエンコードする、共同最適化されたニューラルプリプロセッサとポストプロセッサのセットを使用します。
我々は、異なるアップサンプリング比を処理できる低複雑性のニューラルポストプロセッサアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-07-10T06:36:45Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Low-complexity Deep Video Compression with A Distributed Coding
Architecture [4.5885672744218]
一般的な予測符号化に基づくビデオ圧縮手法は、時間的冗長性を低減するために重エンコーダに依存している。
従来の分散コーディング手法は、予測的コーディングとはかなりのパフォーマンスギャップに悩まされている。
本稿では,レート歪み特性を改善するために,最初のエンドツーエンドの分散ビデオ圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-21T05:34:04Z) - GAN-Based Multi-View Video Coding with Spatio-Temporal EPI
Reconstruction [19.919826392704472]
GAN(Generative Adrial Network)の画像生成機能を活用した新しい多視点ビデオ符号化手法を提案する。
エンコーダでは,時空間平面画像(EPI)デコーダを構築し,さらに畳み込みネットワークを用いてGANの潜時符号をサイド情報(SI)として抽出する。
側面では、SIと隣接する視点を組み合わせて、GANジェネレータを用いて中間ビューを再構築する。
論文 参考訳(メタデータ) (2022-05-07T08:52:54Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Variable Rate Video Compression using a Hybrid Recurrent Convolutional
Learning Framework [1.9290392443571382]
本稿では,予測自動符号化の概念に基づくハイブリッドビデオ圧縮フレームワークであるPredEncoderを提案する。
可変レートブロック符号化方式が論文で提案され,ビットレート比が著しく向上した。
論文 参考訳(メタデータ) (2020-04-08T20:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。