論文の概要: End-to-End Learning-based Video Streaming Enhancement Pipeline: A Generative AI Approach
- arxiv url: http://arxiv.org/abs/2512.14185v1
- Date: Tue, 16 Dec 2025 08:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.637693
- Title: End-to-End Learning-based Video Streaming Enhancement Pipeline: A Generative AI Approach
- Title(参考訳): エンド・ツー・エンドの学習に基づくビデオストリーミング強化パイプライン:ジェネレーティブAIアプローチ
- Authors: Emanuele Artioli, Farzad Tashtarian, Christian Timmerer,
- Abstract要約: ELVISはサーバ側エンコーディング最適化とクライアント側生成インペインティングを組み合わせたエンドツーエンドアーキテクチャで、冗長なビデオデータの削除と再構成を行う。
現在の技術は、ベースラインベンチマークよりも最大11のVMAFポイントの改善を実現している。
- 参考スコア(独自算出の注目度): 9.347197482893113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The primary challenge of video streaming is to balance high video quality with smooth playback. Traditional codecs are well tuned for this trade-off, yet their inability to use context means they must encode the entire video data and transmit it to the client. This paper introduces ELVIS (End-to-end Learning-based VIdeo Streaming Enhancement Pipeline), an end-to-end architecture that combines server-side encoding optimizations with client-side generative in-painting to remove and reconstruct redundant video data. Its modular design allows ELVIS to integrate different codecs, inpainting models, and quality metrics, making it adaptable to future innovations. Our results show that current technologies achieve improvements of up to 11 VMAF points over baseline benchmarks, though challenges remain for real-time applications due to computational demands. ELVIS represents a foundational step toward incorporating generative AI into video streaming pipelines, enabling higher quality experiences without increased bandwidth requirements.
- Abstract(参考訳): ビデオストリーミングの最大の課題は、高画質とスムーズな再生のバランスをとることだ。
従来のコーデックはこのトレードオフに対して十分に調整されているが、コンテキストを使用できないため、ビデオデータ全体をエンコードしてクライアントに送信しなければならない。
本稿では,サーバ側エンコーディング最適化とクライアント側生成インペインティングを組み合わせたエンド・ツー・エンドのアーキテクチャであるELVIS(End-to-end Learning-based VIdeo Streaming Enhancement Pipeline)を紹介し,冗長なビデオデータの削除と再構成を行う。
モジュール設計により、ELVISは様々なコーデック、インペイントモデル、品質メトリクスを統合することができ、将来のイノベーションにも適応できる。
本研究の結果から,現在のVMAFポイントはベースラインベンチマークよりも最大11ポイント向上していることがわかったが,計算要求のためリアルタイムアプリケーションには課題が残っている。
ELVISは、生成AIをビデオストリーミングパイプラインに組み込むための基本的なステップであり、帯域幅の要求を増大させることなく、高品質なエクスペリエンスを実現する。
関連論文リスト
- Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks [21.710127132217526]
本稿では,ビデオ・インタフェース・ネットワーク (VIN) と呼ばれる新しいパラダイムを導入し,ビデオ・チャンクの並列推論を可能にする抽象化モジュールでDiTを拡張した。
VINは局所チャンクのノイズの多い入力と符号化された表現からグローバルセマンティクスをエンコードする。
フルジェネレーションよりも25~40%少ないFLOPを用いて,最先端動作のスムーズさを実現する。
論文 参考訳(メタデータ) (2025-03-21T21:13:02Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。