論文の概要: Morphe: High-Fidelity Generative Video Streaming with Vision Foundation Model
- arxiv url: http://arxiv.org/abs/2602.03529v1
- Date: Tue, 03 Feb 2026 13:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.475867
- Title: Morphe: High-Fidelity Generative Video Streaming with Vision Foundation Model
- Title(参考訳): Morphe:ビジョンファウンデーションモデルによる高忠実な生成ビデオストリーミング
- Authors: Tianyi Gong, Zijian Cao, Zixing Zhang, Jiangkai Wu, Xinggong Zhang, Shuguang Cui, Fangxin Wang,
- Abstract要約: ビジョンファウンデーションモデル(VFM)は、強力なビデオ理解と処理能力を活用するために用いられる。
VFMに基づくエンドツーエンド生成ストリーミングを実現するための,最初の革新的パラダイムを提案する。
Morpheは、H.265と比較して62.5%の帯域幅を節約し、挑戦的なネットワーク環境ではリアルタイムで損失耐性のあるビデオ配信を実現している。
- 参考スコア(独自算出の注目度): 47.71265147565265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video streaming is a fundamental Internet service, while the quality still cannot be guaranteed especially in poor network conditions such as bandwidth-constrained and remote areas. Existing works mainly work towards two directions: traditional pixel-codec streaming nearly approaches its limit and is hard to step further in compression; the emerging neural-enhanced or generative streaming usually fall short in latency and visual fidelity, hindering their practical deployment. Inspired by the recent success of vision foundation model (VFM), we strive to harness the powerful video understanding and processing capacities of VFM to achieve generalization, high fidelity and loss resilience for real-time video streaming with even higher compression rate. We present the first revolutionized paradigm that enables VFM-based end-to-end generative video streaming towards this goal. Specifically, Morphe employs joint training of visual tokenizers and variable-resolution spatiotemporal optimization under simulated network constraints. Additionally, a robust streaming system is constructed that leverages intelligent packet dropping to resist real-world network perturbations. Extensive evaluation demonstrates that Morphe achieves comparable visual quality while saving 62.5\% bandwidth compared to H.265, and accomplishes real-time, loss-resilient video delivery in challenging network environments, representing a milestone in VFM-enabled multimedia streaming solutions.
- Abstract(参考訳): ビデオストリーミングはインターネットの基本的なサービスであり、特に帯域制限や遠隔地などのネットワーク条件では品質が保証されない。
従来のピクセルコーデックストリーミングはその限界にほぼ近づき、圧縮をさらに進めるのは難しい。
近年のビジョンファウンデーションモデル(VFM)の成功に触発されて,VFMの強力な映像理解と処理能力を活用して,より高い圧縮速度でリアルタイムビデオストリーミングを実現する。
本稿では,この目標に向けて,VFMに基づくエンドツーエンドビデオストリーミングを実現するための,最初の革新的パラダイムを提案する。
特に、Morpheは、シミュレーションされたネットワーク制約の下で視覚的トークン化器と可変分解能時空間最適化を共同で訓練している。
さらに、インテリジェントなパケットドロップを利用して実世界のネットワーク摂動に抵抗するロバストなストリーミングシステムを構築している。
大規模な評価では、MorpheはH.265に比べて62.5\%の帯域幅を節約し、VFM対応マルチメディアストリーミングソリューションのマイルストーンである挑戦的なネットワーク環境において、リアルタイムで損失耐性のあるビデオ配信を実現している。
関連論文リスト
- StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - VividFace: High-Quality and Efficient One-Step Diffusion For Video Face Enhancement [51.83206132052461]
ビデオ顔強調(VFE)は、劣化したビデオシーケンスから高品質な顔領域を再構築することを目指している。
ビデオの超解像と生成フレームワークに依存する現在の手法は、3つの根本的な課題に直面している。
ビデオ・フェイス・エンハンスメントのための新規かつ効率的なワンステップ拡散フレームワークであるVividFaceを提案する。
論文 参考訳(メタデータ) (2025-09-28T02:39:48Z) - Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - Semantic-Aware Adaptive Video Streaming Using Latent Diffusion Models for Wireless Networks [12.180483357502293]
本稿では,遅延拡散モデル(LDM)をFF手法に組み込んだリアルタイム適応ビットレートビデオストリーミングのための新しいフレームワークを提案する。
提案手法はLDMを利用してIフレームを潜在空間に圧縮し,ストレージとセマンティックトランスミッションの大幅な節約を実現する。
この作業は、5Gおよび将来の5Gネットワークにおけるスケーラブルなリアルタイムビデオストリーミングの新たな可能性を開く。
論文 参考訳(メタデータ) (2025-02-08T21:14:28Z) - BF-STVSR: B-Splines and Fourier-Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution [14.082598088990352]
ビデオの空間的特徴と時間的特徴をよりよく表現するために,2つのキーモジュールを備えたC-STVSRフレームワークであるBF-STVSRを提案する。
提案手法は,PSNR や SSIM など様々な指標の最先端性を実現し,空間的詳細化や時間的整合性の向上を図っている。
論文 参考訳(メタデータ) (2025-01-19T13:29:41Z) - DeformStream: Deformation-based Adaptive Volumetric Video Streaming [4.366356163044466]
ボリュームビデオストリーミングは没入型3D体験を提供するが、高い帯域幅要件とレイテンシの問題のために大きな課題に直面している。
本稿では,メッシュベースの表現の変形性を生かして,ボリュームビデオストリーミング性能を向上させる新しいフレームワークであるAdaptive Volumetric Video Streamingを紹介する。
論文 参考訳(メタデータ) (2024-09-25T04:43:59Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Multi-level Wavelet-based Generative Adversarial Network for Perceptual
Quality Enhancement of Compressed Video [51.631731922593225]
既存の手法は主に、その知覚的品質を無視しながら、圧縮映像の客観的品質を高めることに焦点を当てている。
圧縮ビデオの知覚品質を高めるために,マルチレベルウェーブレットパケット変換(WPT)に基づくGAN(Generative Adversarial Network)を提案する。
論文 参考訳(メタデータ) (2020-08-02T15:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。