論文の概要: On Pursuit of Designing Multi-modal Transformer for Video Grounding
- arxiv url: http://arxiv.org/abs/2109.06085v1
- Date: Mon, 13 Sep 2021 16:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 20:04:13.411281
- Title: On Pursuit of Designing Multi-modal Transformer for Video Grounding
- Title(参考訳): ビデオ接地用マルチモーダル変圧器設計の追求
- Authors: Meng Cao, Long Chen, Mike Zheng Shou, Can Zhang, Yuexian Zou
- Abstract要約: ビデオグラウンディングは、未編集のビデオから文クエリに対応する時間セグメントをローカライズすることを目的としている。
本稿では,bfGTRと呼ばれる新しいエンド・ツー・エンドのマルチモーダルトランスフォーマーモデルを提案する。具体的には,GTRはビデオ符号化と言語符号化のための2つのエンコーダと,グラウンドディング予測のためのクロスモーダルデコーダを備える。
3つの典型的なGTR変種は、すべてのデータセットとメトリクスで記録破りのパフォーマンスを達成し、推論速度は数倍高速である。
- 参考スコア(独自算出の注目度): 35.25323276744999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video grounding aims to localize the temporal segment corresponding to a
sentence query from an untrimmed video. Almost all existing video grounding
methods fall into two frameworks: 1) Top-down model: It predefines a set of
segment candidates and then conducts segment classification and regression. 2)
Bottom-up model: It directly predicts frame-wise probabilities of the
referential segment boundaries. However, all these methods are not end-to-end,
\ie, they always rely on some time-consuming post-processing steps to refine
predictions. To this end, we reformulate video grounding as a set prediction
task and propose a novel end-to-end multi-modal Transformer model, dubbed as
\textbf{GTR}. Specifically, GTR has two encoders for video and language
encoding, and a cross-modal decoder for grounding prediction. To facilitate the
end-to-end training, we use a Cubic Embedding layer to transform the raw videos
into a set of visual tokens. To better fuse these two modalities in the
decoder, we design a new Multi-head Cross-Modal Attention. The whole GTR is
optimized via a Many-to-One matching loss. Furthermore, we conduct
comprehensive studies to investigate different model design choices. Extensive
results on three benchmarks have validated the superiority of GTR. All three
typical GTR variants achieve record-breaking performance on all datasets and
metrics, with several times faster inference speed.
- Abstract(参考訳): ビデオグラウンディングは、未編集のビデオから文クエリに対応する時間セグメントをローカライズすることを目的としている。
既存のすべてのビデオグラウンドメソッドは、以下の2つのフレームワークに分類される。
1)トップダウンモデル:セグメント候補のセットを事前に定義し、セグメント分類と回帰を実行する。
2)ボトムアップモデル:参照セグメント境界のフレーム毎の確率を直接予測する。
しかし、これらすべてのメソッドはエンドツーエンドではなく、予測を洗練するために時間を要する処理ステップに依存している。
そこで我々は,ビデオグラウンドディングをセット予測タスクとして再構成し,新しいエンドツーエンドのマルチモーダルトランスモデルを提案し,これを「textbf{GTR}」と呼ぶ。
具体的には、GTRにはビデオと言語エンコーディングのための2つのエンコーダと、グラウンド予測のためのクロスモーダルデコーダがある。
エンド・ツー・エンドのトレーニングを容易にするために,キュービック・エンベディング・レイヤを用いて生動画を視覚トークンのセットに変換する。
デコーダのこれら2つのモダリティをよりうまく融合するために、我々は新しいマルチヘッドクロスモーダル注意を設計する。
GTR全体はMulti-to-Oneマッチング損失によって最適化される。
さらに,異なるモデル設計の選択を検討するため,包括的な研究を行う。
3つのベンチマークの結果は、GTRの優位性を実証している。
3つの典型的なGTR変種は、すべてのデータセットとメトリクスで記録破りのパフォーマンスを達成し、推論速度は数倍高速である。
関連論文リスト
- AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - VMFormer: End-to-End Video Matting with Transformer [48.97730965527976]
ビデオマッティングは、与えられた入力ビデオシーケンスから各フレームのアルファマットを予測することを目的としている。
ビデオマッチングの最近のソリューションは、ディープ畳み込みニューラルネットワーク(CNN)によって支配されている。
ビデオ・マッティングのためのトランスフォーマー・ベース・エンド・ツー・エンド方式であるVMFormerを提案する。
論文 参考訳(メタデータ) (2022-08-26T17:51:02Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。