論文の概要: RefDecoder: Enhancing Visual Generation with Conditional Video Decoding
- arxiv url: http://arxiv.org/abs/2605.15196v1
- Date: Thu, 14 May 2026 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:35.020819
- Title: RefDecoder: Enhancing Visual Generation with Conditional Video Decoding
- Title(参考訳): RefDecoder: 条件付きビデオデコーディングによるビジュアルジェネレーションの強化
- Authors: Xiang Fan, Yuheng Wang, Bohan Fang, Zhongzheng Ren, Ranjay Krishna,
- Abstract要約: RefDecoderは、参照アテンションを介してデコードプロセスに直接高忠実度参照画像信号を注入する参照条件付きVAEデコーダである。
我々は、Inter4K、WebVid、Large Motion再構成ベンチマークの無条件ベースラインに対して、+2.1dB PSNRを達成し、いくつかのデコーダバックボーン間で一貫した改善を実証する。
RefDecoderは、追加の微調整なしで既存のビデオ生成システムと直接交換することができる。
- 参考スコア(独自算出の注目度): 34.53947900093251
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Video generation powers a vast array of downstream applications. However, while the de facto standard, i.e., latent diffusion models, typically employ heavily conditioned denoising networks, their decoders often remain unconditional. We observe that this architectural asymmetry leads to significant loss of detail and inconsistency relative to the input image. To address this, we argue that the decoder requires equal conditioning to preserve structural integrity. We introduce RefDecoder, a reference-conditioned video VAE decoder by injecting high-fidelity reference image signal directly into the decoding process via reference attention. Specifically, a lightweight image encoder maps the reference frame into the detail-rich high-dimensional tokens, which are co-processed with the denoised video latent tokens at each decoder up-sampling stage. We demonstrate consistent improvements across several distinct decoder backbones (e.g., Wan 2.1 and VideoVAE+), achieving up to +2.1dB PSNR over the unconditional baselines on the Inter4K, WebVid, and Large Motion reconstruction benchmarks. Notably, RefDecoder can be directly swapped into existing video generation systems without additional fine-tuning, and we report across-the-board improvements in subject consistency, background consistency, and overall quality scores on the VBench I2V benchmark. Beyond I2V, RefDecoder generalizes well to a wide range of visual generation tasks such as style transfer and video editing refinement.
- Abstract(参考訳): ビデオ生成は、大量のダウンストリームアプリケーションを動かす。
しかし、デファクト標準、すなわち遅延拡散モデル(英語版)は一般に重条件のデノナイジングネットワークを使用するが、デコーダはしばしば無条件のままである。
この構造的非対称性は,入力画像に対して細部や不整合を著しく損なうことを観察する。
この問題に対処するためには、デコーダは構造的整合性を維持するために等条件付けが必要であると論じる。
本稿では,参照注意によるデコードプロセスに直接高忠実度参照画像信号を注入することにより,参照条件付きビデオVAEデコーダRefDecoderを紹介する。
具体的には、軽量画像エンコーダは、参照フレームをディテールリッチな高次元トークンにマッピングし、各デコーダアップサンプリングステージにおける復号化ビデオ潜在トークンと共処理する。
我々は、Inter4K、WebVid、Large Motion再構成ベンチマークの無条件ベースラインに対して、複数の異なるデコーダバックボーン(例: Wan 2.1 と VideoVAE+)で一貫した改善を示し、+2.1dB PSNRを実現した。
特筆すべきは、RefDecoderを既存のビデオ生成システムに直接切り替えることができ、VBench I2Vベンチマークにおいて、対象の一貫性、背景の整合性、全体的な品質スコアが改善したことを報告している。
I2V以外にも、RefDecoderはスタイル転送やビデオ編集の改良など、幅広い視覚生成タスクを一般化している。
関連論文リスト
- From Vicious to Virtuous Cycles: Synergistic Representation Learning for Unsupervised Video Object-Centric Learning [45.1920794546889]
我々は、エンコーダとデコーダが相互に相互に洗練されるような活発なサイクルを導入する。
エンコーダとデコーダの間の表現的ギャップを埋めることで、SRLはビデオオブジェクト中心の学習ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2026-02-03T11:11:58Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - GAN-Based Multi-View Video Coding with Spatio-Temporal EPI
Reconstruction [19.919826392704472]
GAN(Generative Adrial Network)の画像生成機能を活用した新しい多視点ビデオ符号化手法を提案する。
エンコーダでは,時空間平面画像(EPI)デコーダを構築し,さらに畳み込みネットワークを用いてGANの潜時符号をサイド情報(SI)として抽出する。
側面では、SIと隣接する視点を組み合わせて、GANジェネレータを用いて中間ビューを再構築する。
論文 参考訳(メタデータ) (2022-05-07T08:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。