論文の概要: Exploring Real-Time Super-Resolution: Benchmarking and Fine-Tuning for Streaming Content
- arxiv url: http://arxiv.org/abs/2602.11339v2
- Date: Sat, 14 Feb 2026 13:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.728666
- Title: Exploring Real-Time Super-Resolution: Benchmarking and Fine-Tuning for Streaming Content
- Title(参考訳): リアルタイム超解法を探る:ストリーミングコンテンツのベンチマークと微調整
- Authors: Evgeney Bogatyrev, Khaled Abud, Ivan Molodetskikh, Nikita Alutis, Dmitriy Vatolin,
- Abstract要約: われわれは,YouTubeをソースとした総合データセットStreamSRを紹介した。
我々は11の最先端のリアルタイム超解像モデルをベンチマークし、ストリーミングユースケースの性能を評価する。
本稿では,効率的なチャネルアテンションと双曲的タンジェントアクティベーション機能を組み合わせた効率的なリアルタイムモデルであるEfRLFNを提案する。
- 参考スコア(独自算出の注目度): 1.1926989512978123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in real-time super-resolution have enabled higher-quality video streaming, yet existing methods struggle with the unique challenges of compressed video content. Commonly used datasets do not accurately reflect the characteristics of streaming media, limiting the relevance of current benchmarks. To address this gap, we introduce a comprehensive dataset - StreamSR - sourced from YouTube, covering a wide range of video genres and resolutions representative of real-world streaming scenarios. We benchmark 11 state-of-the-art real-time super-resolution models to evaluate their performance for the streaming use-case. Furthermore, we propose EfRLFN, an efficient real-time model that integrates Efficient Channel Attention and a hyperbolic tangent activation function - a novel design choice in the context of real-time super-resolution. We extensively optimized the architecture to maximize efficiency and designed a composite loss function that improves training convergence. EfRLFN combines the strengths of existing architectures while improving both visual quality and runtime performance. Finally, we show that fine-tuning other models on our dataset results in significant performance gains that generalize well across various standard benchmarks. We made the dataset, the code, and the benchmark available at https://github.com/EvgeneyBogatyrev/EfRLFN.
- Abstract(参考訳): リアルタイム超解像度の最近の進歩により、高品質なビデオストリーミングが可能になったが、既存の方法では圧縮されたビデオコンテンツの難しさに悩まされている。
一般的に使用されるデータセットは、ストリーミングメディアの特性を正確に反映せず、現在のベンチマークの関連性を制限する。
このギャップに対処するために、YouTubeからソースされた包括的なデータセット、StreamSRを導入し、現実世界のストリーミングシナリオを表す幅広いビデオジャンルと解像度をカバーした。
我々は11の最先端のリアルタイム超解像モデルをベンチマークし、ストリーミングユースケースの性能を評価する。
さらに,高効率チャネルアテンションと双曲的タンジェントアクティベーション関数を統合した効率的なリアルタイムモデルであるEfRLFNを提案する。
アーキテクチャを最適化して効率を最大化し、トレーニング収束を改善する複合損失関数を設計した。
EfRLFNは、ビジュアル品質とランタイムパフォーマンスの両方を改善しながら、既存のアーキテクチャの強みを組み合わせる。
最後に、データセットを微調整した他のモデルが、様々な標準ベンチマークでよく一般化される大きなパフォーマンス向上をもたらすことを示す。
私たちはデータセット、コード、ベンチマークをhttps://github.com/EvgeneyBogatyrev/EfRLFN.comで公開しました。
関連論文リスト
- SCENE: Semantic-aware Codec Enhancement with Neural Embeddings [9.6489283335586]
本稿では,知覚の忠実度を高める意味認識型事前処理フレームワークを提案する。
本手法は,視覚言語モデルからのセマンティック埋め込みを効率的な畳み込みアーキテクチャに統合する。
この結果から, セマンティック・アウェア・プレプロセッサは, 圧縮ビデオストリームの強化に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2026-01-29T05:41:28Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - Video Dataset Condensation with Diffusion Models [7.44997213284633]
ビデオデータセットの蒸留は、大規模な実データセットから必須情報を保持するコンパクトな合成データセットを生成するための有望なソリューションである。
本稿では,ビデオ拡散モデルを用いて高品質な合成ビデオを生成することにより,ビデオデータセットの蒸留に焦点を当てる。
代表性を高めるために,ビデオの多様な情報サブセットを選択するために設計されたVST-UNet(Video Spatio-Temporal U-Net)を導入する。
提案手法の有効性を,4つのベンチマークデータセットによる広範な実験により検証し,現状よりも最大10.61%の性能向上を実証した。
論文 参考訳(メタデータ) (2025-05-10T15:12:19Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z) - Inflation with Diffusion: Efficient Temporal Adaptation for
Text-to-Video Super-Resolution [19.748048455806305]
本稿では,効率的な拡散型テキスト・ビデオ・スーパーレゾリューション(SR)チューニング手法を提案する。
本稿では,我々の拡張アーキテクチャに基づく異なるチューニング手法について検討し,計算コストと超解像品質のトレードオフを報告する。
論文 参考訳(メタデータ) (2024-01-18T22:25:16Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。