論文の概要: Experimenting with Affective Computing Models in Video Interviews with Spanish-speaking Older Adults
- arxiv url: http://arxiv.org/abs/2501.16870v1
- Date: Tue, 28 Jan 2025 11:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:41:26.613879
- Title: Experimenting with Affective Computing Models in Video Interviews with Spanish-speaking Older Adults
- Title(参考訳): スペイン語を話す高齢者のビデオインタビューにおける感情計算モデルを用いた実験
- Authors: Josep Lopez Camunas, Cristina Bustos, Yanjun Zhu, Raquel Ros, Agata Lapedriza,
- Abstract要約: 本研究では、高齢者が人または仮想アバターと対話する映像を用いて、最先端の感情コンピューティングモデルを評価する。
この取り組みの一環として、人間対人間のビデオインタビューに従事しているスペイン語話者の高齢者を対象とした新しいデータセットを紹介した。
- 参考スコア(独自算出の注目度): 2.4866182704905495
- License:
- Abstract: Understanding emotional signals in older adults is crucial for designing virtual assistants that support their well-being. However, existing affective computing models often face significant limitations: (1) limited availability of datasets representing older adults, especially in non-English-speaking populations, and (2) poor generalization of models trained on younger or homogeneous demographics. To address these gaps, this study evaluates state-of-the-art affective computing models -- including facial expression recognition, text sentiment analysis, and smile detection -- using videos of older adults interacting with either a person or a virtual avatar. As part of this effort, we introduce a novel dataset featuring Spanish-speaking older adults engaged in human-to-human video interviews. Through three comprehensive analyses, we investigate (1) the alignment between human-annotated labels and automatic model outputs, (2) the relationships between model outputs across different modalities, and (3) individual variations in emotional signals. Using both the Wizard of Oz (WoZ) dataset and our newly collected dataset, we uncover limited agreement between human annotations and model predictions, weak consistency across modalities, and significant variability among individuals. These findings highlight the shortcomings of generalized emotion perception models and emphasize the need of incorporating personal variability and cultural nuances into future systems.
- Abstract(参考訳): 高齢者の感情信号を理解することは、幸福をサポートするバーチャルアシスタントの設計に不可欠である。
しかし、既存の感情コンピューティングモデルは、(1)高齢者、特に非英語話者のデータセットの可用性の制限、(2)若年層や同質層で訓練されたモデルの一般化の低さなど、重大な制限に直面していることが多い。
これらのギャップに対処するため、この研究では、顔の認識、テキストの感情分析、笑顔の検出を含む最先端の感情コンピューティングモデルについて、人または仮想アバターと対話する高齢者のビデオを用いて評価する。
この取り組みの一環として、人間対人間のビデオインタビューに従事しているスペイン語話者の高齢者を対象とした新しいデータセットを紹介した。
3つの包括的分析を通して,(1)アノテートラベルと自動モデルアウトプットのアライメント,(2)モダリティの異なるモデルアウトプットの関係,(3)感情信号の個人差について検討した。
Oz(WoZ)データセットと新たに収集したデータセットの両方を用いて、人間のアノテーションとモデル予測との限定的な一致、モダリティ間の弱い一貫性、個人間での顕著な変動を明らかにする。
これらの知見は、一般化された感情知覚モデルの欠点を浮き彫りにし、個人的多様性と文化的ニュアンスを将来のシステムに組み込む必要性を強調した。
関連論文リスト
- MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - CAPE: A Chinese Dataset for Appraisal-based Emotional Generation using Large Language Models [30.40159858361768]
認知評価理論に基づく感情コーパスという中国のデータセットであるCAPEを作成するための2段階の自動データ生成フレームワークを提案する。
このコーパスは、多様な個人的・状況的要因を考慮し、文脈的に適切な感情的反応を伴う対話を生成する。
我々の研究は、会話エージェントにおける感情表現を前進させる可能性を示し、よりニュアンスで有意義な人間とコンピュータの相互作用の道を開いた。
論文 参考訳(メタデータ) (2024-10-18T03:33:18Z) - Generative Technology for Human Emotion Recognition: A Scope Review [11.578408396744237]
本調査は,2024年6月までに320以上の研究論文を総合的に分析し,既存の文献のギャップを埋めることを目的としている。
異なる生成モデルと一般的に使用されるデータセットの数学的原理を導入する。
様々なモダリティに基づいて、生成技術がどのように感情認識に対処するかを詳細に分析する。
論文 参考訳(メタデータ) (2024-07-04T05:22:55Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - SEGAA: A Unified Approach to Predicting Age, Gender, and Emotion in
Speech [0.0]
この研究は、膨大な応用分野である声道の年齢、性別、感情を予測することを目的としている。
これらの予測のためのディープラーニングモデルを探索するには、本論文で強調された単一、複数出力、シーケンシャルモデルを比較する必要がある。
実験により,複数出力モデルが個々のモデルと相容れない性能を示し,変数と音声入力の複雑な関係を効率よく把握し,実行環境の改善を実現している。
論文 参考訳(メタデータ) (2024-03-01T11:28:37Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。
我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。
評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文 参考訳(メタデータ) (2022-05-02T09:21:39Z) - Estimating the Personality of White-Box Language Models [0.589889361990138]
大規模なテキストコーパスで訓練された大規模言語モデルは、至る所で広範囲のアプリケーションで使用されている。
既存の研究は、これらのモデルが人間の偏見を捉え、捉えていることを示している。
これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に調査されている。
しかし、これらのモデルによって受け継がれた人間の性格特性を推測し、変化させる研究は、ほとんど、あるいは存在しない。
論文 参考訳(メタデータ) (2022-04-25T23:53:53Z) - Affective Image Content Analysis: Two Decades Review and New
Perspectives [132.889649256384]
我々は,過去20年間の情緒的イメージコンテンツ分析(AICA)の発展を包括的にレビューする。
我々は、感情的ギャップ、知覚主観性、ラベルノイズと欠如という3つの主要な課題に関して、最先端の手法に焦点を当てる。
画像の内容やコンテキスト理解,グループ感情クラスタリング,ビューアーとイメージのインタラクションなど,今後の課題や研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-06-30T15:20:56Z) - Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust
Elderly Speech Emotion Recognition [7.579298439023323]
本稿では,InterSPEECH 2020 Computational Paralinguistics Challenge (ComParE) への貢献について述べる。
本稿では,これらのタスクを最先端の音響的特徴と言語的特徴を用いてモデル化するバイモーダル・フレームワークを提案する。
本研究では,タスク固有の辞書やリソースを活用すれば,言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-09-07T21:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。