論文の概要: CREMD: Crowd-Sourced Emotional Multimodal Dogs Dataset
- arxiv url: http://arxiv.org/abs/2602.15349v1
- Date: Tue, 17 Feb 2026 04:31:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.980371
- Title: CREMD: Crowd-Sourced Emotional Multimodal Dogs Dataset
- Title(参考訳): CREMD: クラウドソースのマルチモーダル犬データ
- Authors: Jinho Baek, Houwei Cao, Kate Blackwell,
- Abstract要約: 我々は、異なるプレゼンテーションモードが犬の感情の知覚とラベル付けにどのように影響するかを探索する包括的データセットCREMD(Crowd-sourced Emotional Multimodal Dogs dataset)を提示する。
データセットは、3つの異なるモードで表示される923のビデオクリップで構成されている。
犬の感情認識に影響を与える要因を特定するため,犬の所有者,専門家,個人など,さまざまな背景や経験レベルを持つ多様な参加者のアノテーションを分析した。
- 参考スコア(独自算出の注目度): 2.0595149576643337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dog emotion recognition plays a crucial role in enhancing human-animal interactions, veterinary care, and the development of automated systems for monitoring canine well-being. However, accurately interpreting dog emotions is challenging due to the subjective nature of emotional assessments and the absence of standardized ground truth methods. We present the CREMD (Crowd-sourced Emotional Multimodal Dogs Dataset), a comprehensive dataset exploring how different presentation modes (e.g., context, audio, video) and annotator characteristics (e.g., dog ownership, gender, professional experience) influence the perception and labeling of dog emotions. The dataset consists of 923 video clips presented in three distinct modes: without context or audio, with context but no audio, and with both context and audio. We analyze annotations from diverse participants, including dog owners, professionals, and individuals with varying demographic backgrounds and experience levels, to identify factors that influence reliable dog emotion recognition. Our findings reveal several key insights: (1) while adding visual context significantly improved annotation agreement, our findings regarding audio cues are inconclusive due to design limitations (specifically, the absence of a no-context-with-audio condition and limited clean audio availability); (2) contrary to expectations, non-owners and male annotators showed higher agreement levels than dog owners and female annotators, respectively, while professionals showed higher agreement levels, aligned with our initial hypothesis; and (3) the presence of audio substantially increased annotators' confidence in identifying specific emotions, particularly anger and fear.
- Abstract(参考訳): 犬の感情認識は、人間と動物との相互作用、獣医のケア、および犬の健康をモニタリングする自動システムの開発を促進する上で重要な役割を担っている。
しかし、感情評価の主観的性質と標準化された根拠的真理法が欠如していることから、犬の感情を正確に解釈することは困難である。
教示モード(例えば、文脈、音声、ビデオ)とアノテーション特性(例えば、犬の所有、性別、職業経験)が、犬の感情の知覚とラベル付けにどのように影響するかを総合的なデータセットであるCREMD(Crowd-sourced Emotional Multimodal Dogs Dataset)を提示する。
データセットは、3つの異なるモードで表示される923のビデオクリップで構成されている。
犬の感情認識に影響を与える要因を特定するため,犬の所有者,専門家,個人など,さまざまな背景や経験レベルを持つ多様な参加者のアノテーションを分析した。
以上の結果から, 視覚的文脈の付加によるアノテーション合意の達成は, 設計上の制約(特に, 音声による条件なし, 清潔な音声利用の制限)による決定的でないこと, 期待に反して, 非所有者と男性アノテータは, それぞれ, 犬の飼い主と女性アノテータよりも高いアノテータの一致レベルを示したこと, プロは, 最初の仮説に沿う高いアノテータレベルを示し, 音声の存在は, 特定の感情, 特に怒りと恐怖の識別に対するアノテータの信頼を著しく高めたこと, など, 重要な知見が得られた。
関連論文リスト
- Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Exploring Emotion Expression Recognition in Older Adults Interacting
with a Virtual Coach [22.00225071959289]
EMPATHICプロジェクトは、健康な高齢者が健康を改善し、自立した高齢化を促進することができる感情表現型バーチャルコーチを設計することを目的としている。
本稿では,仮想コーチの感情表現認識モジュールの開発について概説し,データ収集,アノテーション設計,第1の方法論的アプローチについて述べる。
論文 参考訳(メタデータ) (2023-11-09T18:22:32Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - Deep Learning Models for Automated Classification of Dog Emotional
States from Facial Expressions [1.32383730641561]
近年のディープラーニング技術を用いて,犬の(肯定的な)期待と(否定的な)フラストレーションを分類した。
我々の知る限りでは、この研究はイヌの感情を自動分類するタスクに最初に取り組むものである。
論文 参考訳(メタデータ) (2022-06-11T21:37:38Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Affective Image Content Analysis: Two Decades Review and New
Perspectives [132.889649256384]
我々は,過去20年間の情緒的イメージコンテンツ分析(AICA)の発展を包括的にレビューする。
我々は、感情的ギャップ、知覚主観性、ラベルノイズと欠如という3つの主要な課題に関して、最先端の手法に焦点を当てる。
画像の内容やコンテキスト理解,グループ感情クラスタリング,ビューアーとイメージのインタラクションなど,今後の課題や研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-06-30T15:20:56Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。