論文の概要: EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition
- arxiv url: http://arxiv.org/abs/2505.20033v1
- Date: Mon, 26 May 2025 14:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.504445
- Title: EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition
- Title(参考訳): EmoNet-Face: エキスパートによる感情認識のためのベンチマーク
- Authors: Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, Maurice Kraus, Felix Friedrich, Huu Nguyen, Krishna Kalyan, Kourosh Nadi, Kristian Kersting, Sören Auer,
- Abstract要約: EmoNet FaceはAIシステムの開発と評価のための総合的なベンチマークスイートである。
新たな40カテゴリの感情分類法は、人間の感情経験のより詳細な詳細を捉えている。
明示的で完全な表情を持つ3つの大規模なAI生成データセット。
Empathic Insight Faceは、私たちのベンチマークで人間レベルのパフォーマンスを達成するモデルです。
- 参考スコア(独自算出の注目度): 18.8101367995391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective human-AI interaction relies on AI's ability to accurately perceive and interpret human emotions. Current benchmarks for vision and vision-language models are severely limited, offering a narrow emotional spectrum that overlooks nuanced states (e.g., bitterness, intoxication) and fails to distinguish subtle differences between related feelings (e.g., shame vs. embarrassment). Existing datasets also often use uncontrolled imagery with occluded faces and lack demographic diversity, risking significant bias. To address these critical gaps, we introduce EmoNet Face, a comprehensive benchmark suite. EmoNet Face features: (1) A novel 40-category emotion taxonomy, meticulously derived from foundational research to capture finer details of human emotional experiences. (2) Three large-scale, AI-generated datasets (EmoNet HQ, Binary, and Big) with explicit, full-face expressions and controlled demographic balance across ethnicity, age, and gender. (3) Rigorous, multi-expert annotations for training and high-fidelity evaluation. (4) We build Empathic Insight Face, a model achieving human-expert-level performance on our benchmark. The publicly released EmoNet Face suite - taxonomy, datasets, and model - provides a robust foundation for developing and evaluating AI systems with a deeper understanding of human emotions.
- Abstract(参考訳): 効果的な人間とAIの相互作用は、人間の感情を正確に知覚し解釈するAIの能力に依存している。
現在の視覚モデルと視覚言語モデルのベンチマークは非常に限定されており、微妙な状態(例えば、苦味、酔っぱらい)を見落とし、関連する感情(例えば、恥と恥)の微妙な違いを区別することができない、狭い感情スペクトルを提供する。
既存のデータセットはしばしば、隠蔽された顔を持つ制御されていない画像を使用し、人口統計の多様性を欠いているため、重大なバイアスを負う。
これらの重要なギャップに対処するために、包括的なベンチマークスイートであるEmoNet Faceを紹介します。
EmoNet Faceの特徴:(1)人間の感情体験のより詳細な詳細を捉えるために基礎研究から慎重に派生した40カテゴリーの感情分類学。
2)3つの大規模AI生成データセット(EmoNet HQ, Binary, Big)を明示的かつ完全な表情で表現し,民族,年齢,性別間の人口収支を制御した。
(3)訓練と高忠実度評価のための厳密なマルチエキスパートアノテーション。
(4)Empathic Insight Faceは,我々のベンチマークで人間レベルのパフォーマンスを実現するモデルである。
公開されたEmoNet Faceスイート – 分類、データセット、モデル – は、人間の感情をより深く理解したAIシステムの開発と評価のための堅牢な基盤を提供する。
関連論文リスト
- Artificial Intelligence Can Emulate Human Normative Judgments on Emotional Visual Scenes [0.09208007322096533]
現状のマルチモーダルシステムは、標準化された画像に対して人間の感情評価をエミュレートできるかどうかを検討する。
AIの判断は、平均的な人間の評価と驚くほどよく相関している。
論文 参考訳(メタデータ) (2025-03-24T15:41:23Z) - MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - EmoBench: Evaluating the Emotional Intelligence of Large Language Models [73.60839120040887]
EmoBenchは、確立された心理学理論に基づいて、マシン感情知能(EI)の包括的な定義を提案するベンチマークである。
EmoBenchには、英語と中国語で400の手作りの質問が含まれている。
以上の結果から,既存の大規模言語モデルのEIと平均的な人間の間には,かなりのギャップがみられ,今後の研究に向けての有望な方向性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-02-19T11:48:09Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [53.95428298229396]
リッチ属性を付加した最初の大規模視覚感情データセットであるEmoSetを紹介する。
EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。
心理学的な研究によって動機付けられ、感情のカテゴリに加えて、各画像には記述可能な感情特性のセットが注釈付けされている。
論文 参考訳(メタデータ) (2023-07-16T06:42:46Z) - HICEM: A High-Coverage Emotion Model for Artificial Emotional
Intelligence [9.153146173929935]
次世代の人工知能(AEI)は、より深く、より有意義な人間と機械の相互作用に対するユーザの欲求に対処するために、中心的な段階を採っている。
心理学における歴史的焦点である感情の理論とは異なり、感情モデルは記述的な道具である。
この研究は、社会ロボティクス、人間と機械の相互作用、メンタルヘルスケア、計算心理学に幅広い影響を及ぼす。
論文 参考訳(メタデータ) (2022-06-15T15:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。