論文の概要: SDFE-LV: A Large-Scale, Multi-Source, and Unconstrained Database for
Spotting Dynamic Facial Expressions in Long Videos
- arxiv url: http://arxiv.org/abs/2209.08445v1
- Date: Sun, 18 Sep 2022 01:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:11:41.430827
- Title: SDFE-LV: A Large-Scale, Multi-Source, and Unconstrained Database for
Spotting Dynamic Facial Expressions in Long Videos
- Title(参考訳): SDFE-LV:ロングビデオにおける動的顔表情検索のための大規模・マルチソース・非制約データベース
- Authors: Xiaolin Xu, Yuan Zong, Wenming Zheng, Yang Li, Chuangao Tang, Xingxun
Jiang, Haolin Jiang
- Abstract要約: SDFE-LVは1,191本の長ビデオで構成され、それぞれが1つ以上の完全な動的表情を含む。
対応する長ビデオにおける表情の完全な動的表現は、順調に訓練された10のアノテータによって5回独立にラベル付けされた。
- 参考スコア(独自算出の注目度): 21.7199719907133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a large-scale, multi-source, and unconstrained
database called SDFE-LV for spotting the onset and offset frames of a complete
dynamic facial expression from long videos, which is known as the topic of
dynamic facial expression spotting (DFES) and a vital prior step for lots of
facial expression analysis tasks. Specifically, SDFE-LV consists of 1,191 long
videos, each of which contains one or more complete dynamic facial expressions.
Moreover, each complete dynamic facial expression in its corresponding long
video was independently labeled for five times by 10 well-trained annotators.
To the best of our knowledge, SDFE-LV is the first unconstrained large-scale
database for the DFES task whose long videos are collected from multiple
real-world/closely real-world media sources, e.g., TV interviews,
documentaries, movies, and we-media short videos. Therefore, DFES tasks on
SDFE-LV database will encounter numerous difficulties in practice such as head
posture changes, occlusions, and illumination. We also provided a comprehensive
benchmark evaluation from different angles by using lots of recent
state-of-the-art deep spotting methods and hence researchers interested in DFES
can quickly and easily get started. Finally, with the deep discussions on the
experimental evaluation results, we attempt to point out several meaningful
directions to deal with DFES tasks and hope that DFES can be better advanced in
the future. In addition, SDFE-LV will be freely released for academic use only
as soon as possible.
- Abstract(参考訳): 本稿では,SDFE-LVと呼ばれる大規模・マルチソース・非制約のデータベースを用いて,表情解析タスクにおける動的表情スポッティング(DFES)のトピックとして知られる長編ビデオから,完全な動的表情の開始フレームとオフセットフレームを抽出する手法を提案する。
具体的には、SDFE-LVは1,191本の長ビデオで構成され、それぞれが1つ以上の完全な動的表情を含む。
さらに、対応する長ビデオ中の各完全な動的表情は、10個のよく訓練されたアノテータによって5回独立にラベル付けされた。
我々の知る限り、SDFE-LVはDFESタスクのための最初の非制約の大規模データベースであり、長いビデオは複数の実世界のメディアソース、例えばテレビインタビュー、ドキュメンタリー、映画、マルチメディアショートビデオから収集される。
したがって、SDFE-LVデータベース上でのDFESタスクは、頭部姿勢の変化、閉塞、照明といった多くの困難に直面することになる。
また,最近の最先端のディープスポッティング手法を多用し,様々な角度から総合的なベンチマーク評価を行い,dfesに興味を持つ研究者が迅速かつ容易に始めることができることを示した。
最後に,実験結果について深く議論し,DFESの課題に対処するためのいくつかの意味ある方向性を指摘し,今後DFESがより進歩することを期待している。
加えて、SDFE-LVは、できるだけ早く、学術的にのみ無料でリリースされる。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding [30.06191555110948]
本研究では,1078本のアマチュア映画を公開するショートフィルムデータセットを提案する。
本実験は,SFD課題を解決するための長期的推論の必要性を強調した。
視覚データのみを使用する場合と比較して、現在のモデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2024-06-14T17:54:54Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - SVFAP: Self-supervised Video Facial Affect Perceiver [42.16505961654868]
コンピュータビジョンにおける近年の自己教師型学習の成功に触発された本研究では,自己教師型映像表情知覚器(SVFAP)と呼ばれる自己教師型アプローチを導入する。
SVFAPは、監督された方法で直面するジレンマに対処するために、マスク付きビデオオートエンコーディングを利用して、巨大な未ラベルの顔ビデオで自己教師付き事前トレーニングを行う。
提案手法の有効性を検証するため, 動的表情認識, 次元感情認識, パーソナリティ認識を含む3つの下流タスクにまたがる9つのデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2023-12-31T07:44:05Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - DFEW: A Large-Scale Database for Recognizing Dynamic Facial Expressions
in the Wild [22.305429904593126]
そこで我々は,数千本の映画から16,000本以上のビデオクリップを収録した大規模動的表情データベースDFEWを提案する。
次に,表現クラスタ化時空間特徴学習フレームワークを提案する。
第3に、提案したEC-STFLと同様に、多くの深い特徴学習手法を用いて、DFEWの広範なベンチマーク実験を行う。
論文 参考訳(メタデータ) (2020-08-13T14:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。