Fugu-MT 論文翻訳(概要): Shortcut-V2V: Compression Framework for Video-to-Video Translation based on Temporal Redundancy Reduction

論文の概要: Shortcut-V2V: Compression Framework for Video-to-Video Translation based on Temporal Redundancy Reduction

arxiv url: http://arxiv.org/abs/2308.08011v2
Date: Tue, 3 Oct 2023 22:12:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 21:20:37.680854
Title: Shortcut-V2V: Compression Framework for Video-to-Video Translation based on Temporal Redundancy Reduction
Title（参考訳）: Shortcut-V2V:時間冗長化に基づくビデオ間翻訳のための圧縮フレームワーク
Authors: Chaeyeon Chung, Yeojeong Park, Seunghwan Choi, Munkhsoyol Ganbat, Jaegul Choo
Abstract要約: Shortcut-V2Vはビデオ間翻訳のための汎用圧縮フレームワークである。 We show that Shourcut-V2V achieves comparable performance than the original video-to- video translation model。
参考スコア（独自算出の注目度）: 32.87579824212654
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video-to-video translation aims to generate video frames of a target domain from an input video. Despite its usefulness, the existing networks require enormous computations, necessitating their model compression for wide use. While there exist compression methods that improve computational efficiency in various image/video tasks, a generally-applicable compression method for video-to-video translation has not been studied much. In response, we present Shortcut-V2V, a general-purpose compression framework for video-to-video translation. Shourcut-V2V avoids full inference for every neighboring video frame by approximating the intermediate features of a current frame from those of the previous frame. Moreover, in our framework, a newly-proposed block called AdaBD adaptively blends and deforms features of neighboring frames, which makes more accurate predictions of the intermediate features possible. We conduct quantitative and qualitative evaluations using well-known video-to-video translation models on various tasks to demonstrate the general applicability of our framework. The results show that Shourcut-V2V achieves comparable performance compared to the original video-to-video translation model while saving 3.2-5.7x computational cost and 7.8-44x memory at test time.
Abstract（参考訳）: ビデオからビデオへの変換は、入力ビデオから対象領域のビデオフレームを生成することを目的としている。その有用性にもかかわらず、既存のネットワークは膨大な計算を必要とするため、モデル圧縮を広範囲に利用する必要がある。様々な映像・映像タスクの計算効率を向上する圧縮法は存在するが、ビデオ間翻訳の一般的な圧縮法はあまり研究されていない。これに対して,ビデオ間翻訳のための汎用圧縮フレームワークであるShortcut-V2Vを提案する。 shourcut-v2vは、従来のフレームから現在のフレームの中間特性を近似することにより、隣り合う全てのビデオフレームの完全な推論を回避する。さらに,本フレームワークでは,AdaBDと呼ばれるブロックが隣接フレームの特徴を適応的にブレンドして変形し,中間特徴のより正確な予測を可能にする。我々は,様々なタスクにおいて,よく知られたビデオからビデオへの翻訳モデルを用いて定量的・質的評価を行い,フレームワークの汎用性を示す。結果から,Shourcut-V2Vは従来のビデオ間翻訳モデルと比較して,3.2～5.7倍,テスト時に7.8～44倍のメモリを節約できることがわかった。

関連論文リスト

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文参考訳（メタデータ） (2025-04-21T17:57:21Z)
Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文参考訳（メタデータ） (2024-11-22T02:46:44Z)
High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文参考訳（メタデータ） (2024-10-03T15:40:58Z)
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。 SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文参考訳（メタデータ） (2024-09-02T08:52:58Z)
Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文参考訳（メタデータ） (2024-04-01T17:59:15Z)
Accurate and Fast Compressed Video Captioning [28.19362369787383]
既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセスを実行する必要がある。圧縮領域の異なる視点からビデオキャプションについて検討し、既存のパイプラインに対してマルチフォールドの利点をもたらす。本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習可能な,シンプルで効果的なエンドツーエンド変換器を提案する。
論文参考訳（メタデータ） (2023-09-22T13:43:22Z)
Predictive Coding For Animation-Based Video Compression [13.161311799049978]
本稿では,画像アニメーションを予測器として用いる予測符号化手法を提案し,実際の対象フレームに対する残差を符号化する。実験の結果,HEVCビデオ標準に比べて70%以上,VVCに比べて30%以上,有意な上昇を示した。
論文参考訳（メタデータ） (2023-07-09T14:40:54Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
Advancing Learned Video Compression with In-loop Frame Prediction [177.67218448278143]
本稿では,ループ内フレーム予測モジュールを用いたALVC(Advanced Learned Video Compression)アプローチを提案する。予測フレームは、以前圧縮されたフレームよりも優れた参照として機能し、圧縮性能の恩恵を受けることができる。本実験は,学習ビデオ圧縮におけるALVC手法の最先端性能を示すものである。
論文参考訳（メタデータ） (2022-11-13T19:53:14Z)
Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。 RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-06-05T10:36:09Z)
VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文参考訳（メタデータ） (2022-01-28T17:54:43Z)
SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文参考訳（メタデータ） (2021-11-25T18:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。