Fugu-MT 論文翻訳(概要): SDFE-LV: A Large-Scale, Multi-Source, and Unconstrained Database for Spotting Dynamic Facial Expressions in Long Videos

論文の概要: SDFE-LV: A Large-Scale, Multi-Source, and Unconstrained Database for Spotting Dynamic Facial Expressions in Long Videos

arxiv url: http://arxiv.org/abs/2209.08445v1
Date: Sun, 18 Sep 2022 01:59:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-20 18:11:41.430827
Title: SDFE-LV: A Large-Scale, Multi-Source, and Unconstrained Database for Spotting Dynamic Facial Expressions in Long Videos
Title（参考訳）: SDFE-LV:ロングビデオにおける動的顔表情検索のための大規模・マルチソース・非制約データベース
Authors: Xiaolin Xu, Yuan Zong, Wenming Zheng, Yang Li, Chuangao Tang, Xingxun Jiang, Haolin Jiang
Abstract要約: SDFE-LVは1,191本の長ビデオで構成され、それぞれが1つ以上の完全な動的表情を含む。対応する長ビデオにおける表情の完全な動的表現は、順調に訓練された10のアノテータによって5回独立にラベル付けされた。
参考スコア（独自算出の注目度）: 21.7199719907133
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we present a large-scale, multi-source, and unconstrained database called SDFE-LV for spotting the onset and offset frames of a complete dynamic facial expression from long videos, which is known as the topic of dynamic facial expression spotting (DFES) and a vital prior step for lots of facial expression analysis tasks. Specifically, SDFE-LV consists of 1,191 long videos, each of which contains one or more complete dynamic facial expressions. Moreover, each complete dynamic facial expression in its corresponding long video was independently labeled for five times by 10 well-trained annotators. To the best of our knowledge, SDFE-LV is the first unconstrained large-scale database for the DFES task whose long videos are collected from multiple real-world/closely real-world media sources, e.g., TV interviews, documentaries, movies, and we-media short videos. Therefore, DFES tasks on SDFE-LV database will encounter numerous difficulties in practice such as head posture changes, occlusions, and illumination. We also provided a comprehensive benchmark evaluation from different angles by using lots of recent state-of-the-art deep spotting methods and hence researchers interested in DFES can quickly and easily get started. Finally, with the deep discussions on the experimental evaluation results, we attempt to point out several meaningful directions to deal with DFES tasks and hope that DFES can be better advanced in the future. In addition, SDFE-LV will be freely released for academic use only as soon as possible.
Abstract（参考訳）: 本稿では,SDFE-LVと呼ばれる大規模・マルチソース・非制約のデータベースを用いて,表情解析タスクにおける動的表情スポッティング(DFES)のトピックとして知られる長編ビデオから,完全な動的表情の開始フレームとオフセットフレームを抽出する手法を提案する。具体的には、SDFE-LVは1,191本の長ビデオで構成され、それぞれが1つ以上の完全な動的表情を含む。さらに、対応する長ビデオ中の各完全な動的表情は、10個のよく訓練されたアノテータによって5回独立にラベル付けされた。我々の知る限り、SDFE-LVはDFESタスクのための最初の非制約の大規模データベースであり、長いビデオは複数の実世界のメディアソース、例えばテレビインタビュー、ドキュメンタリー、映画、マルチメディアショートビデオから収集される。したがって、SDFE-LVデータベース上でのDFESタスクは、頭部姿勢の変化、閉塞、照明といった多くの困難に直面することになる。また,最近の最先端のディープスポッティング手法を多用し,様々な角度から総合的なベンチマーク評価を行い,dfesに興味を持つ研究者が迅速かつ容易に始めることができることを示した。最後に,実験結果について深く議論し,DFESの課題に対処するためのいくつかの意味ある方向性を指摘し,今後DFESがより進歩することを期待している。加えて、SDFE-LVは、できるだけ早く、学術的にのみ無料でリリースされる。

関連論文リスト

MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文参考訳（メタデータ） (2025-02-18T05:50:23Z)
X-LeBench: A Benchmark for Extremely Long Egocentric Video Understanding [25.85614872348223]
ロングフォームなエゴセントリックなビデオ理解は、コンテキスト情報と長期的な人間の行動に関する洞察を提供する。既存のベンチマークデータセットは、主に、単一、短調のビデオ、あるいは適度に長いビデオに焦点を当てている。 X-LeBenchは、極端に長いエゴセントリックなビデオ録画のタスクを評価するために特別に作られた、新しいベンチマークデータセットである。
論文参考訳（メタデータ） (2025-01-12T15:07:03Z)
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。 HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文参考訳（メタデータ） (2025-01-03T05:32:37Z)
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。 87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文参考訳（メタデータ） (2024-11-25T08:04:47Z)
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文参考訳（メタデータ） (2024-10-03T17:49:28Z)
Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding [30.06191555110948]
本研究では,1078本のアマチュア映画を公開するショートフィルムデータセットを提案する。本実験は,SFD課題を解決するための長期的推論の必要性を強調した。視覚データのみを使用する場合と比較して、現在のモデルの性能は大幅に低下する。
論文参考訳（メタデータ） (2024-06-14T17:54:54Z)
CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文参考訳（メタデータ） (2024-05-14T17:59:02Z)
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文参考訳（メタデータ） (2024-01-16T14:33:09Z)
SVFAP: Self-supervised Video Facial Affect Perceiver [42.16505961654868]
コンピュータビジョンにおける近年の自己教師型学習の成功に触発された本研究では,自己教師型映像表情知覚器(SVFAP)と呼ばれる自己教師型アプローチを導入する。 SVFAPは、監督された方法で直面するジレンマに対処するために、マスク付きビデオオートエンコーディングを利用して、巨大な未ラベルの顔ビデオで自己教師付き事前トレーニングを行う。提案手法の有効性を検証するため, 動的表情認識, 次元感情認識, パーソナリティ認識を含む3つの下流タスクにまたがる9つのデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2023-12-31T07:44:05Z)
Video-based Person Re-identification with Long Short-Term Representation Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-07T16:22:47Z)
Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文参考訳（メタデータ） (2023-03-28T15:39:28Z)
DFEW: A Large-Scale Database for Recognizing Dynamic Facial Expressions in the Wild [22.305429904593126]
そこで我々は,数千本の映画から16,000本以上のビデオクリップを収録した大規模動的表情データベースDFEWを提案する。次に,表現クラスタ化時空間特徴学習フレームワークを提案する。第3に、提案したEC-STFLと同様に、多くの深い特徴学習手法を用いて、DFEWの広範なベンチマーク実験を行う。
論文参考訳（メタデータ） (2020-08-13T14:10:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。