論文の概要: SDFE-LV: A Large-Scale, Multi-Source, and Unconstrained Database for
Spotting Dynamic Facial Expressions in Long Videos
- arxiv url: http://arxiv.org/abs/2209.08445v1
- Date: Sun, 18 Sep 2022 01:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:11:41.430827
- Title: SDFE-LV: A Large-Scale, Multi-Source, and Unconstrained Database for
Spotting Dynamic Facial Expressions in Long Videos
- Title(参考訳): SDFE-LV:ロングビデオにおける動的顔表情検索のための大規模・マルチソース・非制約データベース
- Authors: Xiaolin Xu, Yuan Zong, Wenming Zheng, Yang Li, Chuangao Tang, Xingxun
Jiang, Haolin Jiang
- Abstract要約: SDFE-LVは1,191本の長ビデオで構成され、それぞれが1つ以上の完全な動的表情を含む。
対応する長ビデオにおける表情の完全な動的表現は、順調に訓練された10のアノテータによって5回独立にラベル付けされた。
- 参考スコア(独自算出の注目度): 21.7199719907133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a large-scale, multi-source, and unconstrained
database called SDFE-LV for spotting the onset and offset frames of a complete
dynamic facial expression from long videos, which is known as the topic of
dynamic facial expression spotting (DFES) and a vital prior step for lots of
facial expression analysis tasks. Specifically, SDFE-LV consists of 1,191 long
videos, each of which contains one or more complete dynamic facial expressions.
Moreover, each complete dynamic facial expression in its corresponding long
video was independently labeled for five times by 10 well-trained annotators.
To the best of our knowledge, SDFE-LV is the first unconstrained large-scale
database for the DFES task whose long videos are collected from multiple
real-world/closely real-world media sources, e.g., TV interviews,
documentaries, movies, and we-media short videos. Therefore, DFES tasks on
SDFE-LV database will encounter numerous difficulties in practice such as head
posture changes, occlusions, and illumination. We also provided a comprehensive
benchmark evaluation from different angles by using lots of recent
state-of-the-art deep spotting methods and hence researchers interested in DFES
can quickly and easily get started. Finally, with the deep discussions on the
experimental evaluation results, we attempt to point out several meaningful
directions to deal with DFES tasks and hope that DFES can be better advanced in
the future. In addition, SDFE-LV will be freely released for academic use only
as soon as possible.
- Abstract(参考訳): 本稿では,SDFE-LVと呼ばれる大規模・マルチソース・非制約のデータベースを用いて,表情解析タスクにおける動的表情スポッティング(DFES)のトピックとして知られる長編ビデオから,完全な動的表情の開始フレームとオフセットフレームを抽出する手法を提案する。
具体的には、SDFE-LVは1,191本の長ビデオで構成され、それぞれが1つ以上の完全な動的表情を含む。
さらに、対応する長ビデオ中の各完全な動的表情は、10個のよく訓練されたアノテータによって5回独立にラベル付けされた。
我々の知る限り、SDFE-LVはDFESタスクのための最初の非制約の大規模データベースであり、長いビデオは複数の実世界のメディアソース、例えばテレビインタビュー、ドキュメンタリー、映画、マルチメディアショートビデオから収集される。
したがって、SDFE-LVデータベース上でのDFESタスクは、頭部姿勢の変化、閉塞、照明といった多くの困難に直面することになる。
また,最近の最先端のディープスポッティング手法を多用し,様々な角度から総合的なベンチマーク評価を行い,dfesに興味を持つ研究者が迅速かつ容易に始めることができることを示した。
最後に,実験結果について深く議論し,DFESの課題に対処するためのいくつかの意味ある方向性を指摘し,今後DFESがより進歩することを期待している。
加えて、SDFE-LVは、できるだけ早く、学術的にのみ無料でリリースされる。
関連論文リスト
- MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。
平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。
幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。
さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - X-LeBench: A Benchmark for Extremely Long Egocentric Video Understanding [25.85614872348223]
ロングフォームなエゴセントリックなビデオ理解は、コンテキスト情報と長期的な人間の行動に関する洞察を提供する。
既存のベンチマークデータセットは、主に、単一、短調のビデオ、あるいは適度に長いビデオに焦点を当てている。
X-LeBenchは、極端に長いエゴセントリックなビデオ録画のタスクを評価するために特別に作られた、新しいベンチマークデータセットである。
論文 参考訳(メタデータ) (2025-01-12T15:07:03Z) - HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - SEAL: Semantic Attention Learning for Long Video Representation [31.994155533019843]
本稿では,長編ビデオの新たな統一表現であるセマンティック・アテンション・ラーニング(SEAL)を紹介する。
計算複雑性を低減するために、長いビデオは3つの異なるタイプのセマンティックエンティティに分解される。
私たちの表現は多目的であり、様々な長いビデオ理解タスクにまたがるアプリケーションを可能にします。
論文 参考訳(メタデータ) (2024-12-02T18:46:12Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - DFEW: A Large-Scale Database for Recognizing Dynamic Facial Expressions
in the Wild [22.305429904593126]
そこで我々は,数千本の映画から16,000本以上のビデオクリップを収録した大規模動的表情データベースDFEWを提案する。
次に,表現クラスタ化時空間特徴学習フレームワークを提案する。
第3に、提案したEC-STFLと同様に、多くの深い特徴学習手法を用いて、DFEWの広範なベンチマーク実験を行う。
論文 参考訳(メタデータ) (2020-08-13T14:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。