論文の概要: SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation
- arxiv url: http://arxiv.org/abs/2603.16864v1
- Date: Tue, 17 Mar 2026 17:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.472411
- Title: SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation
- Title(参考訳): SparkVSR: Sparse Keyframe Propagationによるインタラクティブビデオスーパーリゾリューション
- Authors: Jiongze Yu, Xiangbo Gao, Pooja Verlani, Akshay Gadde, Yilin Wang, Balu Adsumilli, Zhengzhong Tu,
- Abstract要約: Video Super-Resolution (VSR)は、低解像度(LR)推定から高品質なフレームを復元することを目的としている。
本稿では,スパースをシンプルかつ表現力のある制御信号とする,SparkVSRと呼ばれる対話型VSRフレームワークを提案する。
我々は、CLIP-IQA、DOVER、MUSIQベンチマークで24.6%、21.8%、および5.6%のベースラインを越え、時間的一貫性と強い回復品質を実証した。
- 参考スコア(独自算出の注目度): 22.301957762395237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Super-Resolution (VSR) aims to restore high-quality video frames from low-resolution (LR) estimates, yet most existing VSR approaches behave like black boxes at inference time: users cannot reliably correct unexpected artifacts, but instead can only accept whatever the model produces. In this paper, we propose a novel interactive VSR framework dubbed SparkVSR that makes sparse keyframes a simple and expressive control signal. Specifically, users can first super-resolve or optionally a small set of keyframes using any off-the-shelf image super-resolution (ISR) model, then SparkVSR propagates the keyframe priors to the entire video sequence while remaining grounded by the original LR video motion. Concretely, we introduce a keyframe-conditioned latent-pixel two-stage training pipeline that fuses LR video latents with sparsely encoded HR keyframe latents to learn robust cross-space propagation and refine perceptual details. At inference time, SparkVSR supports flexible keyframe selection (manual specification, codec I-frame extraction, or random sampling) and a reference-free guidance mechanism that continuously balances keyframe adherence and blind restoration, ensuring robust performance even when reference keyframes are absent or imperfect. Experiments on multiple VSR benchmarks demonstrate improved temporal consistency and strong restoration quality, surpassing baselines by up to 24.6%, 21.8%, and 5.6% on CLIP-IQA, DOVER, and MUSIQ, respectively, enabling controllable, keyframe-driven video super-resolution. Moreover, we demonstrate that SparkVSR is a generic interactive, keyframe-conditioned video processing framework as it can be applied out of the box to unseen tasks such as old-film restoration and video style transfer. Our project page is available at: https://sparkvsr.github.io/
- Abstract(参考訳): Video Super-Resolution (VSR)は、低解像度(LR)推定から高品質なビデオフレームを復元することを目的としているが、既存のほとんどのVSRアプローチは、推論時にブラックボックスのように振る舞う。
本稿では,スパースキーフレームをシンプルかつ表現力のある制御信号とする,SparkVSRと呼ばれる対話型VSRフレームワークを提案する。
具体的には、ユーザーはまず、オフ・ザ・シェルフ・イメージ・スーパーレゾリューション(ISR)モデルを使用して、またはオプションで小さなキーフレームのセットをスーパーリゾルブするか、または選択することができる。
具体的には、低符号化のHRキーフレームラテントとLRビデオラテントを融合したキーフレーム条件のラテント2段階トレーニングパイプラインを導入し、ロバストな空間伝搬と知覚の詳細の洗練を図る。
推論時にSparkVSRは、フレキシブルなキーフレーム選択(手動仕様、コーデックIフレーム抽出、ランダムサンプリング)と、キーフレームのアテンデンスとブラインド復元を継続的にバランスさせ、参照キーフレームが欠如したり不完全であったりしても堅牢なパフォーマンスを保証するリファレンスフリーガイダンスメカニズムをサポートする。
複数のVSRベンチマークの実験では、時間的一貫性と強い復元品質が向上し、ベースラインが24.6%、21.8%、CLIP-IQA、DOVER、MUSIQの5.6%を超えた。
さらに,SparkVSRは,従来のフィルム復元やビデオスタイルの転送といった未確認作業に対して,最初から適用可能な,汎用的な対話型キーフレーム対応のビデオ処理フレームワークであることを示す。
私たちのプロジェクトページは以下の通りです。
関連論文リスト
- FOCUS: Efficient Keyframe Selection for Long Video Understanding [26.44459739499484]
マルチモーダル大言語モデル(LMLM)は画像とビデオフレームを視覚トークンとして表現する。
FOCUS(Frame-Optimistic Confidence Upbound Selection)は、厳格なトークン予算の下でフレームを選択するモデルに依存しない選択モジュールである。
20分以上のビデオでは、LongVideoBenchingベンチマークで11.9%の精度向上を達成した。
論文 参考訳(メタデータ) (2025-10-31T08:41:13Z) - K-frames: Scene-Driven Any-k Keyframe Selection for long video understanding [38.06179287702453]
Kフレームは、時間的連続性を保存するシーン駆動の選択のための新しいパラダイムである。
個々のフレームを選択する代わりに、Kフレームは意味的に一貫性のあるクエリ関連クリップを予測する。
Kフレームは、様々なスケールで選択するための効果的な、解釈可能な、プラグアンドプレイソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-14T06:23:22Z) - From Captions to Keyframes: KeyScore for Multimodal Frame Scoring and Video-Language Understanding [1.3856027745141806]
KeyScoreは、キャプションと意味的類似性、時間的代表性、文脈的ドロップインパクトを組み合わせたキャプション対応のフレームスコアリング手法である。
提案手法は効率と性能を両立させ,拡張性とキャプションによる映像理解を可能にする。
論文 参考訳(メタデータ) (2025-10-07T23:02:27Z) - Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:04:28Z) - Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation [20.67434288227437]
ViLAMPは階層型ビデオ言語モデルで、1時間の動画を「混合精度」で処理する
ViLAMPは、非キーフレームを最も健全な特徴に減らしながら、完全な情報を保持し、混合精度のトレーニングに似ている。
特にViLAMPは、単一のNVIDIA A100 GPU上で超長いビデオ(最大10Kフレーム)を処理できる。
論文 参考訳(メタデータ) (2025-04-03T09:55:09Z) - Adaptive Keyframe Sampling for Long Video Understanding [75.7837692594814]
本稿では、適応鍵フレームサンプリング(AKS)という、単純だが効果的なアルゴリズムを提案する。
これはAdaptive Keyframe Sampling (AKS)と呼ばれるプラグインとプレイモジュールを挿入し、ビデオトークンの固定数で有用な情報を最大化することを目的としている。
2つの長いビデオ理解ベンチマークの実験は、AKSが情報的出会いを選択する際にビデオQA精度を改善することを検証する。
論文 参考訳(メタデータ) (2025-02-28T17:46:29Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - Zooming SlowMo: An Efficient One-Stage Framework for Space-Time Video
Super-Resolution [100.11355888909102]
時空ビデオ超解像度は低解像度(LR)と低フレームレート(LFR)ビデオシーケンスから高解像度(HR)スローモーションビデオを生成することを目的としている。
入力LRおよびLFRビデオから直接HRスローモーション映像シーケンスを再構成できる一段階の時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:23Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。