論文の概要: VEMOCLAP: A video emotion classification web application
- arxiv url: http://arxiv.org/abs/2410.21303v1
- Date: Tue, 22 Oct 2024 10:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 07:22:00.864786
- Title: VEMOCLAP: A video emotion classification web application
- Title(参考訳): VEMOCLAP:ビデオ感情分類ウェブアプリケーション
- Authors: Serkan Sulun, Paula Viana, Matthew E. P. Davies,
- Abstract要約: VEMOCLAP: ユーザが提供したビデオの感情的内容を分析するための,初めて利用可能かつオープンソースなWebアプリケーションであるPretrained機能を用いたビデオEMOtionについて紹介する。
提案手法は,Ekman-6ビデオ感情データセットの最先端分類精度を4.3%向上させる。
- 参考スコア(独自算出の注目度): 1.1743167854433303
- License:
- Abstract: We introduce VEMOCLAP: Video EMOtion Classifier using Pretrained features, the first readily available and open-source web application that analyzes the emotional content of any user-provided video. We improve our previous work, which exploits open-source pretrained models that work on video frames and audio, and then efficiently fuse the resulting pretrained features using multi-head cross-attention. Our approach increases the state-of-the-art classification accuracy on the Ekman-6 video emotion dataset by 4.3% and offers an online application for users to run our model on their own videos or YouTube videos. We invite the readers to try our application at serkansulun.com/app.
- Abstract(参考訳): VEMOCLAP: ユーザが提供したビデオの感情的内容を分析するための,初めて手軽でオープンソースのWebアプリケーションであるPretrained機能を用いたビデオEMOtion Classifierを紹介する。
我々は、ビデオフレームとオーディオで動作するオープンソースの事前学習モデルを利用して、過去の作業を改善し、マルチヘッド・クロスアテンションを用いて、得られた事前学習機能を効率的に融合する。
我々のアプローチは、Ekman-6ビデオ感情データセットの最先端の分類精度を4.3%向上させ、ユーザが自分のビデオやYouTubeビデオでモデルを実行するためのオンラインアプリケーションを提供する。
私たちは読者に、Serkansulun.com/appでアプリケーションを試してみてください。
関連論文リスト
- Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout [5.721743498917423]
ここでは,CLIPに基づいたモデルであるEmoVCLIPを紹介する。
我々は、堅牢な情報融合のためにモダリティ・ドロップアウトを採用する。
最後に、ラベルのないビデオを活用するために、自己学習戦略を利用する。
論文 参考訳(メタデータ) (2024-09-11T08:06:47Z) - Semi-supervised Active Learning for Video Action Detection [8.110693267550346]
我々はラベル付きデータとラベルなしデータの両方を利用する、新しい半教師付きアクティブラーニング手法を開発した。
提案手法は,UCF-24-101,JHMDB-21,Youtube-VOSの3種類のベンチマークデータセットに対して評価を行った。
論文 参考訳(メタデータ) (2023-12-12T11:13:17Z) - Learned Scalable Video Coding For Humans and Machines [39.32955669909719]
本稿では,機械ビジョンタスクをベース層でサポートする最初のエンドツーエンドの学習可能なビデオを紹介し,その拡張レイヤは人間の視聴のための入力再構成をサポートする。
我々のフレームワークは、その基盤層において、最先端の学習と従来のビデオコーデックの両方を上回り、その拡張層では、人間の視覚タスクに匹敵する性能を維持している。
論文 参考訳(メタデータ) (2023-07-18T05:22:25Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z) - Short Video-based Advertisements Evaluation System: Self-Organizing
Learning Approach [22.2568038582329]
本稿では,ユーザ行動予測のためのエンドツーエンドの自己組織化フレームワークを提案する。
我々のモデルは、トレーニングデータを通じて、ニューラルネットワークアーキテクチャの最適トポロジと最適な重みを学習することができる。
論文 参考訳(メタデータ) (2020-10-23T20:52:24Z) - Creating a Large-scale Synthetic Dataset for Human Activity Recognition [0.8250374560598496]
ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
論文 参考訳(メタデータ) (2020-07-21T22:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。