Fugu-MT 論文翻訳(概要): FERV39k: A Large-Scale Multi-Scene Dataset for Facial Expression Recognition in Videos

論文の概要: FERV39k: A Large-Scale Multi-Scene Dataset for Facial Expression Recognition in Videos

arxiv url: http://arxiv.org/abs/2203.09463v1
Date: Thu, 17 Mar 2022 17:25:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-18 15:21:30.063206
Title: FERV39k: A Large-Scale Multi-Scene Dataset for Facial Expression Recognition in Videos
Title（参考訳）: FERV39k:ビデオにおける表情認識のための大規模マルチシーンデータセット
Authors: Yan Wang, Yixuan Sun, Yiwen Huang, Zhongying Liu, Shuyong Gao, Wei Zhang, Weifeng Ge and Wenqiang Zhang
Abstract要約: 我々はFERV39kと呼ばれる大規模マルチシーンデータセットを構築した。 4つのシナリオを22のシーンに分割し、よく設計されたワークフローに基づいて4Kビデオから86kのサンプルを自動的に注釈付けし、最後に7つの古典的な表現でラベル付けされた38,935のビデオクリップを作成します。
参考スコア（独自算出の注目度）: 19.80232867678188
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current benchmarks for facial expression recognition (FER) mainly focus on static images, while there are limited datasets for FER in videos. It is still ambiguous to evaluate whether performances of existing methods remain satisfactory in real-world application-oriented scenes. For example, the "Happy" expression with high intensity in Talk-Show is more discriminating than the same expression with low intensity in Official-Event. To fill this gap, we build a large-scale multi-scene dataset, coined as FERV39k. We analyze the important ingredients of constructing such a novel dataset in three aspects: (1) multi-scene hierarchy and expression class, (2) generation of candidate video clips, (3) trusted manual labelling process. Based on these guidelines, we select 4 scenarios subdivided into 22 scenes, annotate 86k samples automatically obtained from 4k videos based on the well-designed workflow, and finally build 38,935 video clips labeled with 7 classic expressions. Experiment benchmarks on four kinds of baseline frameworks were also provided and further analysis on their performance across different scenes and some challenges for future research were given. Besides, we systematically investigate key components of DFER by ablation studies. The baseline framework and our project are available on url.
Abstract（参考訳）: 顔表情認識(FER)の現在のベンチマークは、主に静的画像に焦点を当てているが、ビデオにはFERのデータセットが限られている。既存のメソッドのパフォーマンスが実際のアプリケーション指向のシーンで十分であるかどうかを評価することは、まだ曖昧である。例えば、トークショーで高輝度の"happy"表現は、公式イベントにおいて低強度の同じ表現よりも識別性が高い。このギャップを埋めるために、ferV39kと呼ばれる大規模なマルチシーンデータセットを構築しました。本研究では,(1)マルチシーン階層と表現クラス,(2)候補ビデオクリップの生成,(3)信頼された手動ラベリングプロセスの3つの側面から,このような新しいデータセットを構築する重要な要素を分析する。これらのガイドラインに基づき,22シーンに分割した4つのシナリオを選択し,適切に設計されたワークフローに基づいて4kビデオから抽出した86kサンプルを自動アノテーションし,最終的に7つの古典的な表現でラベル付けされた38,935本のビデオクリップを構築する。 4種類のベースラインフレームワークの実験ベンチマークも提供され、そのパフォーマンスをさまざまな場面で分析し、今後の研究課題も提示された。さらに, アブレーション研究によりDFERの主要成分を系統的に検討した。ベースラインフレームワークと私たちのプロジェクトは、urlで利用可能です。

関連論文リスト

MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation [126.77662882743168]
テキストと音声の両方に33,072人の注釈付き動作表現を含むデータセットであるMeViSを紹介する。 MeViSがサポートする4つのタスクにまたがる15の既存メソッドをベンチマークする。本稿では,RVOS/AVOS/RMOTに対するLMPM++のアプローチを提案する。
論文参考訳（メタデータ） (2025-12-11T18:59:44Z)
VideoScore2: Think before You Score in Generative Video Evaluation [69.43069741467603]
VideoScore2は、視覚的品質、テキスト・ツー・ビデオのアライメント、物理的/常識的一貫性を明確に評価する多次元、解釈可能、そして人間によるアライメントフレームワークである。我々のモデルは、27,168人の注釈付きビデオを含む大規模なデータセットVideoFeedback2で訓練されている。
論文参考訳（メタデータ） (2025-09-26T18:09:03Z)
EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation In Multi-Modal Large Language Models [8.397725938541381]
命令されたビジュアルタスクは、自然言語命令に基づいた画像やビデオ内のオブジェクトのセグメンテーションを必要とする。最近のマルチモーダル大言語モデル(MLLM)は、ISV上では高いパフォーマンスを達成しているが、その推論コストは依然として大きなボトルネックとなっている。我々は,空間情報を統合することで,k中心上に構築されたEVTP-IVと呼ばれる新しい視覚的トークンのプルーニング手法を提案する。
論文参考訳（メタデータ） (2025-08-16T03:16:33Z)
SceneSplat++: A Large Dataset and Comprehensive Benchmark for Language Gaussian Splatting [104.83629308412958]
3D Gaussian Splatting (3DGS) は、シーン幾何学、外観、意味論の高性能かつ効率的な符号化として機能する。 3次元空間で直接3つの手法群を体系的に評価する,最初の大規模ベンチマークを提案する。結果は、特にシーン固有の制限を緩和する上で、一般化可能なパラダイムの明確な利点を示している。
論文参考訳（メタデータ） (2025-06-10T11:52:45Z)
TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。 TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。 i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文参考訳（メタデータ） (2025-06-05T12:54:56Z)
IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs [36.76252153495239]
IV-Benchは、Image-Grounded Video Perception and Reasoningを評価するための最初の包括的なベンチマークである。 IV-Benchは、13のタスクにわたる2,585の微妙な注釈付き画像テキストクエリと組み合わせた967のビデオで構成されている。
論文参考訳（メタデータ） (2025-04-21T19:53:44Z)
4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文参考訳（メタデータ） (2025-04-01T07:06:47Z)
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields [56.184278668305076]
2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
論文参考訳（メタデータ） (2025-03-26T17:56:16Z)
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文参考訳（メタデータ） (2024-10-03T17:49:28Z)
E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文参考訳（メタデータ） (2024-09-26T17:53:04Z)
AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI [1.1035305628305816]
本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
論文参考訳（メタデータ） (2024-01-03T10:08:40Z)
X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文参考訳（メタデータ） (2023-11-30T18:43:51Z)
UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。 UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文参考訳（メタデータ） (2023-01-16T08:43:17Z)
HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4～12%向上したことを観察した。
論文参考訳（メタデータ） (2021-10-05T01:18:15Z)
Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文参考訳（メタデータ） (2020-06-12T09:37:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。