論文の概要: Class-attention Video Transformer for Engagement Intensity Prediction
- arxiv url: http://arxiv.org/abs/2208.07216v1
- Date: Fri, 12 Aug 2022 01:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:21:13.591704
- Title: Class-attention Video Transformer for Engagement Intensity Prediction
- Title(参考訳): エンゲージメント強度予測のためのクラス注意ビデオ変換器
- Authors: Xusheng Ai, Victor S. Sheng, Chunhua Li
- Abstract要約: CavTは、可変長長ビデオと固定長短ビデオのエンドツーエンド学習を均一に行う方法である。
CavTは、EmotiW-EPデータセット上の最先端MSE(0.0495)、DAiSEEデータセット上の最先端MSE(0.0377)を達成する。
- 参考スコア(独自算出の注目度): 20.430266245901684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to deal with variant-length long videos, prior works extract
multi-modal features and fuse them to predict students' engagement intensity.
In this paper, we present a new end-to-end method Class Attention in Video
Transformer (CavT), which involves a single vector to process class embedding
and to uniformly perform end-to-end learning on variant-length long videos and
fixed-length short videos. Furthermore, to address the lack of sufficient
samples, we propose a binary-order representatives sampling method (BorS) to
add multiple video sequences of each video to augment the training set.
BorS+CavT not only achieves the state-of-the-art MSE (0.0495) on the EmotiW-EP
dataset, but also obtains the state-of-the-art MSE (0.0377) on the DAiSEE
dataset. The code and models will be made publicly available at
https://github.com/mountainai/cavt.
- Abstract(参考訳): 可変長ビデオに対処するため,先行研究は複数モーダルな特徴を抽出し,学生のエンゲージメントの強度を予測する。
本稿では,ビデオ変換器におけるクラスアテンション(CavT)の新たなエンド・ツー・エンド手法を提案する。これは,クラス埋め込みを処理し,可変長長ビデオと固定長短ビデオのエンドツーエンド学習を均一に行うための単一のベクトルを含む。
さらに,十分なサンプルの不足に対処するために,各映像に複数の映像列を追加してトレーニングセットを補強する2次代表サンプリング法(bors)を提案する。
BorS+CavTは、EmotiW-EPデータセットで最先端MSE(0.0495)を達成するだけでなく、DAiSEEデータセットで最先端MSE(0.0377)を取得する。
コードとモデルはhttps://github.com/mountainai/cavt.comで公開される。
関連論文リスト
- TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。