論文の概要: Reparo: Loss-Resilient Generative Codec for Video Conferencing
- arxiv url: http://arxiv.org/abs/2305.14135v3
- Date: Fri, 04 Oct 2024 19:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:10:30.308770
- Title: Reparo: Loss-Resilient Generative Codec for Video Conferencing
- Title(参考訳): Reparo:ビデオ会議のためのレジリエントな生成コーデック
- Authors: Tianhong Li, Vibhaalakshmi Sivaraman, Pantea Karimi, Lijie Fan, Mohammad Alizadeh, Dina Katabi,
- Abstract要約: 本稿では、再生深層学習モデルに基づく損失耐性ビデオ会議フレームワークReparoを紹介する。
ビデオ品質(PSNR, SSIM, LPIPS)とビデオフリーズの発生の両方の観点から,Reparoは最先端のFECベースのビデオ会議ソリューションよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 26.908731561652726
- License:
- Abstract: Packet loss during video conferencing often results in poor quality and video freezing. Retransmitting lost packets is often impractical due to the need for real-time playback, and using Forward Error Correction (FEC) for packet recovery is challenging due to the unpredictable and bursty nature of Internet losses. Excessive redundancy leads to inefficiency and wasted bandwidth, while insufficient redundancy results in undecodable frames, causing video freezes and quality degradation in subsequent frames. We introduce Reparo -- a loss-resilient video conferencing framework based on generative deep learning models to address these issues. Our approach generates missing information when a frame or part of a frame is lost. This generation is conditioned on the data received thus far, considering the model's understanding of how people and objects appear and interact within the visual realm. Experimental results, using publicly available video conferencing datasets, demonstrate that Reparo outperforms state-of-the-art FEC-based video conferencing solutions in terms of both video quality (measured through PSNR, SSIM, and LPIPS) and the occurrence of video freezes.
- Abstract(参考訳): ビデオ会議におけるパケットの損失は、品質の低下とビデオの凍結につながることが多い。
パケットの再送信は、リアルタイムの再生を必要とするため、しばしば非現実的であり、パケットの回復にFEC(Forward Error Correction)を用いることは、インターネットの損失の予測不能でバースト的な性質のために困難である。
過剰な冗長性は効率の悪さと帯域幅の浪費につながるが、冗長性不足は非復調性フレームをもたらし、ビデオの凍結とその後のフレームの品質劣化を引き起こす。
Reparoは、これらの問題に対処するために、生成的なディープラーニングモデルに基づく、損失耐性のあるビデオ会議フレームワークである。
我々のアプローチは、フレームやフレームの一部が失われたときに、欠落した情報を生成する。
この生成は、人やオブジェクトが視覚領域内でどのように出現し、相互作用するかをモデルが理解することを考慮して、これまでに受け取ったデータに条件付けされている。
公開されているビデオ会議データセットを用いて実験した結果、Reparoはビデオ品質(PSNR, SSIM, LPIPS)とビデオフリーズの発生の両方の観点から、最先端のFECベースのビデオ会議ソリューションより優れていることが示された。
関連論文リスト
- EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - Toward Accurate and Temporally Consistent Video Restoration from Raw
Data [20.430231283171327]
連続的かつ高精度な空間伝搬による新しいVJDDフレームワークを提案する。
提案した損失は,不正確な流量推定による誤差蓄積問題を回避することができる。
復元精度,知覚品質,時間的整合性の観点から,VJDDの先行性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-12-25T12:38:03Z) - Retargeting video with an end-to-end framework [14.270721529264929]
本稿では,動画を任意の比率に再ターゲティングするためのエンドツーエンドのRETVI手法を提案する。
私たちのシステムは、以前よりも品質と実行時間で優れています。
論文 参考訳(メタデータ) (2023-11-08T04:56:41Z) - GRACE: Loss-Resilient Real-Time Video through Neural Codecs [31.006987868475683]
リアルタイムビデオ通信では、遅延の厳しい要求のため、ロスパケットを高遅延ネットワーク上で再送信することは不可能である。
本稿では,ユーザによるパケットロスに対するQE(Quality of Experience, QE)の保存を行うGRACEという,損失耐性のあるリアルタイムビデオシステムを提案する。
論文 参考訳(メタデータ) (2023-05-21T03:50:44Z) - LSTM-based Video Quality Prediction Accounting for Temporal Distortions
in Videoconferencing Calls [22.579711841384764]
クラウドソーシングによってラベル付けされた主観的品質評価を用いてLSTMをトレーニングすることにより,このような歪みを自動的にモデル化するデータ駆動型手法を提案する。
ソースビデオにQRコードをマーカとして適用し、アライメントベクトルに基づいてアライメント参照を作成し、時間的特徴を計算する。
提案モデルでは,検証セット上で0.99のPCCを実現し,映像品質障害の原因について詳細な知見を提供する。
論文 参考訳(メタデータ) (2023-03-22T17:14:38Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。
RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-05T10:36:09Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Network state Estimation using Raw Video Analysis: vQoS-GAN based
non-intrusive Deep Learning Approach [5.8010446129208155]
vQoS GANは、劣化した受信ビデオデータからネットワーク状態パラメータを推定することができる。
ディープラーニングネットワークモデルのロバストでユニークな設計が、データレートとパケット損失クラスラベルと共にビデオデータで訓練されている。
提案した半教師付き生成対向ネットワークは、劣化したビデオデータを元の形式に再構築することで、より良いエンドユーザー体験を実現する。
論文 参考訳(メタデータ) (2022-03-22T10:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。