論文の概要: Shortcut-V2V: Compression Framework for Video-to-Video Translation based
on Temporal Redundancy Reduction
- arxiv url: http://arxiv.org/abs/2308.08011v2
- Date: Tue, 3 Oct 2023 22:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 21:20:37.680854
- Title: Shortcut-V2V: Compression Framework for Video-to-Video Translation based
on Temporal Redundancy Reduction
- Title(参考訳): Shortcut-V2V:時間冗長化に基づくビデオ間翻訳のための圧縮フレームワーク
- Authors: Chaeyeon Chung, Yeojeong Park, Seunghwan Choi, Munkhsoyol Ganbat,
Jaegul Choo
- Abstract要約: Shortcut-V2Vはビデオ間翻訳のための汎用圧縮フレームワークである。
We show that Shourcut-V2V achieves comparable performance than the original video-to- video translation model。
- 参考スコア(独自算出の注目度): 32.87579824212654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-to-video translation aims to generate video frames of a target domain
from an input video. Despite its usefulness, the existing networks require
enormous computations, necessitating their model compression for wide use.
While there exist compression methods that improve computational efficiency in
various image/video tasks, a generally-applicable compression method for
video-to-video translation has not been studied much. In response, we present
Shortcut-V2V, a general-purpose compression framework for video-to-video
translation. Shourcut-V2V avoids full inference for every neighboring video
frame by approximating the intermediate features of a current frame from those
of the previous frame. Moreover, in our framework, a newly-proposed block
called AdaBD adaptively blends and deforms features of neighboring frames,
which makes more accurate predictions of the intermediate features possible. We
conduct quantitative and qualitative evaluations using well-known
video-to-video translation models on various tasks to demonstrate the general
applicability of our framework. The results show that Shourcut-V2V achieves
comparable performance compared to the original video-to-video translation
model while saving 3.2-5.7x computational cost and 7.8-44x memory at test time.
- Abstract(参考訳): ビデオからビデオへの変換は、入力ビデオから対象領域のビデオフレームを生成することを目的としている。
その有用性にもかかわらず、既存のネットワークは膨大な計算を必要とするため、モデル圧縮を広範囲に利用する必要がある。
様々な映像・映像タスクの計算効率を向上する圧縮法は存在するが、ビデオ間翻訳の一般的な圧縮法はあまり研究されていない。
これに対して,ビデオ間翻訳のための汎用圧縮フレームワークであるShortcut-V2Vを提案する。
shourcut-v2vは、従来のフレームから現在のフレームの中間特性を近似することにより、隣り合う全てのビデオフレームの完全な推論を回避する。
さらに,本フレームワークでは,AdaBDと呼ばれるブロックが隣接フレームの特徴を適応的にブレンドして変形し,中間特徴のより正確な予測を可能にする。
我々は,様々なタスクにおいて,よく知られたビデオからビデオへの翻訳モデルを用いて定量的・質的評価を行い,フレームワークの汎用性を示す。
結果から,Shourcut-V2Vは従来のビデオ間翻訳モデルと比較して,3.2~5.7倍,テスト時に7.8~44倍のメモリを節約できることがわかった。
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - Accurate and Fast Compressed Video Captioning [28.19362369787383]
既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセスを実行する必要がある。
圧縮領域の異なる視点からビデオキャプションについて検討し、既存のパイプラインに対してマルチフォールドの利点をもたらす。
本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習可能な,シンプルで効果的なエンドツーエンド変換器を提案する。
論文 参考訳(メタデータ) (2023-09-22T13:43:22Z) - Predictive Coding For Animation-Based Video Compression [13.161311799049978]
本稿では,画像アニメーションを予測器として用いる予測符号化手法を提案し,実際の対象フレームに対する残差を符号化する。
実験の結果,HEVCビデオ標準に比べて70%以上,VVCに比べて30%以上,有意な上昇を示した。
論文 参考訳(メタデータ) (2023-07-09T14:40:54Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Advancing Learned Video Compression with In-loop Frame Prediction [177.67218448278143]
本稿では,ループ内フレーム予測モジュールを用いたALVC(Advanced Learned Video Compression)アプローチを提案する。
予測フレームは、以前圧縮されたフレームよりも優れた参照として機能し、圧縮性能の恩恵を受けることができる。
本実験は,学習ビデオ圧縮におけるALVC手法の最先端性能を示すものである。
論文 参考訳(メタデータ) (2022-11-13T19:53:14Z) - Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。
RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-05T10:36:09Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - SwinBERT: End-to-End Transformers with Sparse Attention for Video
Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。
提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。
このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文 参考訳(メタデータ) (2021-11-25T18:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。