論文の概要: VMFormer: End-to-End Video Matting with Transformer
- arxiv url: http://arxiv.org/abs/2208.12801v1
- Date: Fri, 26 Aug 2022 17:51:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:13:10.063622
- Title: VMFormer: End-to-End Video Matting with Transformer
- Title(参考訳): VMFormer: Transformerを使ったエンドツーエンドのビデオマッチング
- Authors: Jiachen Li, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Yunchao
Wei and Humphrey Shi
- Abstract要約: ビデオマッティングは、与えられた入力ビデオシーケンスから各フレームのアルファマットを予測することを目的としている。
ビデオマッチングの最近のソリューションは、ディープ畳み込みニューラルネットワーク(CNN)によって支配されている。
ビデオ・マッティングのためのトランスフォーマー・ベース・エンド・ツー・エンド方式であるVMFormerを提案する。
- 参考スコア(独自算出の注目度): 48.97730965527976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video matting aims to predict the alpha mattes for each frame from a given
input video sequence. Recent solutions to video matting have been dominated by
deep convolutional neural networks (CNN) for the past few years, which have
become the de-facto standard for both academia and industry. However, they have
inbuilt inductive bias of locality and do not capture global characteristics of
an image due to the CNN-based architectures. They also lack long-range temporal
modeling considering computational costs when dealing with feature maps of
multiple frames. In this paper, we propose VMFormer: a transformer-based
end-to-end method for video matting. It makes predictions on alpha mattes of
each frame from learnable queries given a video input sequence. Specifically,
it leverages self-attention layers to build global integration of feature
sequences with short-range temporal modeling on successive frames. We further
apply queries to learn global representations through cross-attention in the
transformer decoder with long-range temporal modeling upon all queries. In the
prediction stage, both queries and corresponding feature maps are used to make
the final prediction of alpha matte. Experiments show that VMFormer outperforms
previous CNN-based video matting methods on the composited benchmarks. To our
best knowledge, it is the first end-to-end video matting solution built upon a
full vision transformer with predictions on the learnable queries. The project
is open-sourced at https://chrisjuniorli.github.io/project/VMFormer/
- Abstract(参考訳): ビデオマッティングは、与えられた入力ビデオシーケンスから各フレームのアルファマットを予測することを目的としている。
ビデオマッチングの最近のソリューションは、過去数年間、深層畳み込みニューラルネットワーク(CNN)によって支配されており、学術と産業の両方においてデファクトスタンダードになっている。
しかし、局所性の帰納バイアスが組み込まれており、CNNアーキテクチャによる画像のグローバルな特徴を捉えていない。
また、複数のフレームの特徴マップを扱う場合の計算コストを考慮した長期時間モデルも欠如している。
本稿では,ビデオマッチングのためのトランスフォーマーに基づくエンドツーエンド手法であるVMFormerを提案する。
ビデオ入力シーケンスから学習可能なクエリから各フレームのアルファマット上での予測を行う。
具体的には、セルフアテンション層を利用して、連続するフレーム上で短距離の時間的モデリングを伴う機能シーケンスのグローバル統合を構築する。
さらに,全ての問合せに対する長距離時間モデルを用いたトランスデコーダにおけるクロスアテンションによるグローバル表現の学習にクエリを適用する。
予測段階では、クエリと対応する機能マップの両方を使用して、アルファマットの最終予測を行う。
実験の結果、VMFormerはCNNベースのビデオ・マッティング法よりも優れていることがわかった。
私たちの知る限りでは、これは学習可能なクエリの予測を備えたフルビジョントランスフォーマー上に構築された、最初のエンドツーエンドビデオマットリングソリューションです。
プロジェクトはhttps://chrisjuniorli.github.io/project/VMFormer/でオープンソース化されている。
関連論文リスト
- Video Pre-trained Transformer: A Multimodal Mixture of Pre-trained
Experts [2.457872341625575]
ビデオ事前学習トランスについて紹介する。
4つのSOTAエンコーダモデルを使用して、動画をコンパクトな埋め込みのシーケンスに変換する。
自動回帰因果言語モデリングの損失を利用して学習し、YouTubeビデオで話される単語を予測する。
論文 参考訳(メタデータ) (2023-03-24T17:18:40Z) - A unified model for continuous conditional video prediction [14.685237010856953]
条件付きビデオ予測タスクは通常、タスク関連モデルによって解決される。
ほぼ全ての条件付きビデオ予測モデルは、離散的な予測しか達成できない。
本稿では,これら2つの問題を同時に扱う統一モデルを提案する。
論文 参考訳(メタデータ) (2022-10-11T22:26:59Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - Masked Conditional Video Diffusion for Prediction, Generation, and
Interpolation [14.631523634811392]
Masked Conditional Video Diffusion (MCVD) はビデオ予測のための汎用フレームワークである。
私たちは、過去のフレームや将来のフレームをすべて無作為に、無作為に、独立してマスクする方法でモデルをトレーニングします。
提案手法は,1~12日で計算時間を計測し,標準的なビデオ予測ベンチマークにまたがってSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-05-19T20:58:05Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - On Pursuit of Designing Multi-modal Transformer for Video Grounding [35.25323276744999]
ビデオグラウンディングは、未編集のビデオから文クエリに対応する時間セグメントをローカライズすることを目的としている。
本稿では,bfGTRと呼ばれる新しいエンド・ツー・エンドのマルチモーダルトランスフォーマーモデルを提案する。具体的には,GTRはビデオ符号化と言語符号化のための2つのエンコーダと,グラウンドディング予測のためのクロスモーダルデコーダを備える。
3つの典型的なGTR変種は、すべてのデータセットとメトリクスで記録破りのパフォーマンスを達成し、推論速度は数倍高速である。
論文 参考訳(メタデータ) (2021-09-13T16:01:19Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。