Fugu-MT 論文翻訳(概要): VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning

論文の概要: VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning

arxiv url: http://arxiv.org/abs/2106.11250v1
Date: Mon, 21 Jun 2021 16:48:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-22 16:01:53.485917
Title: VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning
Title（参考訳）: VIMPAC:masked Token予測とコントラスト学習によるビデオ事前学習
Authors: Hao Tan, Jie Lei, Thomas Wolf, Mohit Bansal
Abstract要約: ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
参考スコア（独自算出の注目度）: 82.09856883441044
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video understanding relies on perceiving the global content and modeling its internal connections (e.g., causality, movement, and spatio-temporal correspondence). To learn these interactions, we apply a mask-then-predict pre-training task on discretized video tokens generated via VQ-VAE. Unlike language, where the text tokens are more independent, neighboring video tokens typically have strong correlations (e.g., consecutive video frames usually look very similar), and hence uniformly masking individual tokens will make the task too trivial to learn useful representations. To deal with this issue, we propose a block-wise masking strategy where we mask neighboring video tokens in both spatial and temporal domains. We also add an augmentation-free contrastive learning method to further capture the global content by predicting whether the video clips are sampled from the same video. We pre-train our model on uncurated videos and show that our pre-trained model can reach state-of-the-art results on several video understanding datasets (e.g., SSV2, Diving48). Lastly, we provide detailed analyses on model scalability and pre-training method design. Code is released at https://github.com/airsplay/vimpac.
Abstract（参考訳）: ビデオ理解は、グローバルコンテンツの知覚と、その内部接続(例えば因果関係、運動、時空間対応)のモデル化に依存している。これらの相互作用を学習するために、VQ-VAEを介して生成された離散化ビデオトークンにマスク列予測事前学習タスクを適用する。テキストトークンがより独立した言語とは異なり、隣接するビデオトークンには強い相関関係(例えば、連続するビデオフレームは、通常非常によく似ている)があるため、個々のトークンを均一にマスキングすることは、有用な表現を学ぶのに難しすぎる。この問題に対処するため,我々は空間領域と時間領域の両方に隣接する映像トークンをマスキングするブロックサイドマスキング戦略を提案する。また、ビデオクリップが同じビデオからサンプリングされているかどうかを予測して、グローバルコンテンツをさらに捉えるために、強調なしのコントラスト学習手法も追加する。未作成のビデオでモデルを事前トレーニングし、トレーニング済みのモデルがいくつかのビデオ理解データセット(例えば、ssv2, dive48)で最新結果に到達できることを示します。最後に,モデルのスケーラビリティと事前学習手法の設計について詳細に分析する。コードはhttps://github.com/airsplay/vimpacでリリースされる。

関連論文リスト

Multimodal Long Video Modeling Based on Temporal Dynamic Context [13.979661295432964]
時間的動的コンテキスト(TDC)と呼ばれるフレーム間の時間的関係を利用した動的長ビデオ符号化手法を提案する。ビデオはフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚音響エンコーダを使用してトークンにエンコードする。極端に長いビデオを扱うために,複数のビデオセグメントから回答を段階的に抽出する学習自由連鎖戦略を提案する。
論文参考訳（メタデータ） (2025-04-14T17:34:06Z)
CrossVideoMAE: Self-Supervised Image-Video Representation Learning with Masked Autoencoders [6.159948396712944]
CrossVideoMAEはビデオレベルとフレームレベルのリッチテンポラル表現とセマンティック属性の両方を学ぶ。提案手法は,ビデオからの時間的情報とサンプルフレームからの空間的情報を統合する。これは、ビデオおよびフレーム画像のモダリティから、リッチでラベルなしなガイド信号の自己教師型取得に不可欠である。
論文参考訳（メタデータ） (2025-02-08T06:15:39Z)
OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文参考訳（メタデータ） (2024-03-26T17:59:24Z)
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文参考訳（メタデータ） (2024-03-18T17:59:58Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文参考訳（メタデータ） (2022-11-21T06:48:14Z)
Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文参考訳（メタデータ） (2022-03-04T21:09:13Z)
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文参考訳（メタデータ） (2021-11-24T18:31:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。