論文の概要: VCT: A Video Compression Transformer
- arxiv url: http://arxiv.org/abs/2206.07307v1
- Date: Wed, 15 Jun 2022 05:31:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 13:16:47.772682
- Title: VCT: A Video Compression Transformer
- Title(参考訳): VCT:ビデオ圧縮変換器
- Authors: Fabian Mentzer, George Toderici, David Minnen, Sung-Jin Hwang, Sergi
Caelles, Mario Lucic, Eirikur Agustsson
- Abstract要約: ニューラルビデオ圧縮を大幅に単純化するために、トランスフォーマーをどのように使用できるかを示す。
入力フレームを独立して表現にマッピングし、トランスフォーマーを使用して依存関係をモデル化します。
結果、ビデオ圧縮変換器は、標準のビデオ圧縮データセットにおいて従来の方法より優れる。
- 参考スコア(独自算出の注目度): 34.24768739576685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show how transformers can be used to vastly simplify neural video
compression. Previous methods have been relying on an increasing number of
architectural biases and priors, including motion prediction and warping
operations, resulting in complex models. Instead, we independently map input
frames to representations and use a transformer to model their dependencies,
letting it predict the distribution of future representations given the past.
The resulting video compression transformer outperforms previous methods on
standard video compression data sets. Experiments on synthetic data show that
our model learns to handle complex motion patterns such as panning, blurring
and fading purely from data. Our approach is easy to implement, and we release
code to facilitate future research.
- Abstract(参考訳): ニューラルビデオ圧縮を単純化するためにトランスフォーマーをどのように利用できるかを示す。
以前の手法では、動きの予測やウォーピング操作など、アーキテクチャ上のバイアスや事前設定の数が増えて、複雑なモデルが生まれてきた。
代わりに、入力フレームを表現に独立にマッピングし、トランスフォーマーを使用して依存関係をモデル化し、過去の表現の分布を予測する。
得られたビデオ圧縮トランスは、従来の標準ビデオ圧縮データセットの手法を上回っている。
合成データを用いた実験では,パンニング,ぼやけ,フェージングといった複雑な動きパターンを純粋にデータから処理することを学ぶ。
我々のアプローチは実装が容易で、将来の研究を促進するコードをリリースします。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Extreme Video Compression with Pre-trained Diffusion Models [11.898317376595697]
本稿では,デコーダにおける拡散型生成モデルの予測力を活用した,極端な映像圧縮のための新しい手法を提案する。
ビデオ全体が順次エンコードされ、知覚品質の指標を考慮し、視覚的に快く再現される。
その結果、生成モデルを用いて映像データの時間的関係を活用できる可能性が示された。
論文 参考訳(メタデータ) (2024-02-14T04:23:05Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。