論文の概要: Beyond Discrete Categories: Multi-Task Valence-Arousal Modeling for Pet Vocalization Analysis
- arxiv url: http://arxiv.org/abs/2510.12819v1
- Date: Thu, 09 Oct 2025 23:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.326977
- Title: Beyond Discrete Categories: Multi-Task Valence-Arousal Modeling for Pet Vocalization Analysis
- Title(参考訳): 離散カテゴリを超えて: ペットのVocalization分析のためのマルチタスク検証-Arousal Modeling
- Authors: Junyao Huang, Rumin Situ,
- Abstract要約: 本研究では,2次元空間における感情を表現する連続的ヴァレンス・オーラル(VA)モデルを提案する。
提案手法はVAラベルの自動生成アルゴリズムを用いて,42,553ペット発声サンプルの大規模アノテーションを可能にする。
- 参考スコア(独自算出の注目度): 0.08594140167290097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional pet emotion recognition from vocalizations, based on discrete classification, struggles with ambiguity and capturing intensity variations. We propose a continuous Valence-Arousal (VA) model that represents emotions in a two-dimensional space. Our method uses an automatic VA label generation algorithm, enabling large-scale annotation of 42,553 pet vocalization samples. A multi-task learning framework jointly trains VA regression with auxiliary tasks (emotion, body size, gender) to enhance prediction by improving feature learning. Our Audio Transformer model achieves a validation Valence Pearson correlation of r = 0.9024 and an Arousal r = 0.7155, effectively resolving confusion between discrete categories like "territorial" and "happy." This work introduces the first continuous VA framework for pet vocalization analysis, offering a more expressive representation for human-pet interaction, veterinary diagnostics, and behavioral training. The approach shows strong potential for deployment in consumer products like AI pet emotion translators.
- Abstract(参考訳): 個別の分類に基づく従来のペットの感情認識は、あいまいさに悩まされ、強度の変化を捉えている。
本研究では,2次元空間における感情を表現する連続的ヴァレンス・オーラル(VA)モデルを提案する。
提案手法はVAラベルの自動生成アルゴリズムを用いて,42,553ペット発声サンプルの大規模アノテーションを可能にする。
マルチタスク学習フレームワークは、補助的なタスク(感情、体の大きさ、性別)でVA回帰を共同で訓練し、特徴学習を改善して予測を強化する。
我々のオーディオトランスフォーマーモデルは、r = 0.9024 と Arousal r = 0.7155 のヴァレンス・ピアソンの相関を検証し、「テリア」や「ハッピー」のような離散的なカテゴリの混乱を効果的に解消する。
この研究は、ペットの発声分析のための最初の連続VAフレームワークを導入し、ヒトとペットの相互作用、獣医の診断、行動訓練の表現力を高めた。
このアプローチは、AIペットの感情伝達器のようなコンシューマ製品へのデプロイの可能性を強く示している。
関連論文リスト
- An Exploratory Framework for Future SETI Applications: Detecting Generative Reactivity via Language Models [0.0]
我々は、地球外信号の復号化を前提とせず、入力が生成系における言語行動を引き起こすかどうかを評価する。
音声入力は,ヒトの発声,ハンプバッククジラの発声,Phyloscopus trochilus Birdong,アルゴリズムによる白色雑音の4種類を検討した。
その結果,クジラと鳥の発声は白色雑音よりもSIPスコアが高く,ヒトの発声は中程度の反応しか起こらなかった。
論文 参考訳(メタデータ) (2025-06-03T10:46:57Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Poisson Variational Autoencoder [0.0]
変分オートエンコーダ(VAE)はベイズ推定を用いて感覚入力を解釈する。
本稿では,予測符号化の原理と,インプットを離散スパイク数にエンコードするVAEを組み合わせた新しいアーキテクチャを開発する。
我々の研究は、脳のような感覚処理を研究するための解釈可能な計算フレームワークを提供する。
論文 参考訳(メタデータ) (2024-05-23T12:02:54Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Disentangled Variational Autoencoder for Emotion Recognition in
Conversations [14.92924920489251]
会話(ERC)における感情認識のためのVAD-VAE(VAD-VAE)を提案する。
VAD-VAEは3つをアンタングルし、Valence-Arousal-Dominance(VAD)を潜在空間から表現する。
実験により、VAD-VAEは2つのデータセット上で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:50:06Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - A Pre-trained Audio-Visual Transformer for Emotion Recognition [5.321281630718918]
4000人近い有名人から500k以上の発話を訓練した事前学習型音声-視覚変換器を導入する。
このモデルは、人間の顔と聴覚行動の相互作用から有用な情報を取り込み、抽出することを目的としている。
論文 参考訳(メタデータ) (2022-01-23T03:09:16Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。