論文の概要: Top1 Solution of QQ Browser 2021 Ai Algorithm Competition Track 1 :
Multimodal Video Similarity
- arxiv url: http://arxiv.org/abs/2111.01677v1
- Date: Sat, 30 Oct 2021 15:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 05:16:03.547664
- Title: Top1 Solution of QQ Browser 2021 Ai Algorithm Competition Track 1 :
Multimodal Video Similarity
- Title(参考訳): QQブラウザ2021 Aiアルゴリズム競合トラック1 : マルチモーダルビデオの類似性
- Authors: Zhuoran Ma, Majing Lou, Xuan Ouyang
- Abstract要約: QQブラウザ2021 Aiアルゴリズムコンペティション(AIAC)トラック1のソリューションについて説明する。
プレトレイン段階では、(1)ビデオタグ分類(VTC)、(2)マスク言語モデリング(MLM)、(3)マスクフレームモデリング(MFM)の3つのタスクでモデルを訓練する。
ファインチューンフェーズでは、ランク付き正規化人間ラベルに基づいて、映像類似度でモデルを訓練する。
私たちの完全なパイプラインは、いくつかのモデルを組み立てた後、リーダーボードで0.852を獲得しました。
- 参考スコア(独自算出の注目度): 0.6445605125467573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we describe the solution to the QQ Browser 2021 Ai Algorithm
Competition (AIAC) Track 1. We use the multi-modal transformer model for the
video embedding extraction. In the pretrain phase, we train the model with
three tasks, (1) Video Tag Classification (VTC), (2) Mask Language Modeling
(MLM) and (3) Mask Frame Modeling (MFM). In the finetune phase, we train the
model with video similarity based on rank normalized human labels. Our full
pipeline, after ensembling several models, scores 0.852 on the leaderboard,
which we achieved the 1st place in the competition. The source codes have been
released at Github.
- Abstract(参考訳): 本稿では,QQ Browser 2021 Ai Algorithm Competition (AIAC) Track 1について述べる。
ビデオ埋め込み抽出にはマルチモーダルトランスフォーマーモデルを用いる。
プレトレイン段階では,(1)ビデオタグ分類(VTC),(2)マスク言語モデリング(MLM),(3)マスクフレームモデリング(MFM)の3つのタスクでモデルを訓練する。
微粒度段階では,人間のランク正規化ラベルに基づくビデオ類似度でモデルを訓練する。
私たちの完全なパイプラインは、いくつかのモデルを組み立てた後、リーダーボードで0.852を獲得しました。
ソースコードはGithubで公開されている。
関連論文リスト
- 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文 参考訳(メタデータ) (2024-01-01T04:24:48Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Class-attention Video Transformer for Engagement Intensity Prediction [20.430266245901684]
CavTは、可変長長ビデオと固定長短ビデオのエンドツーエンド学習を均一に行う方法である。
CavTは、EmotiW-EPデータセット上の最先端MSE(0.0495)、DAiSEEデータセット上の最先端MSE(0.0377)を達成する。
論文 参考訳(メタデータ) (2022-08-12T01:21:30Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。