論文の概要: A New Perspective on Smiling and Laughter Detection: Intensity Levels
Matter
- arxiv url: http://arxiv.org/abs/2403.02112v1
- Date: Mon, 4 Mar 2024 15:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:28:15.219564
- Title: A New Perspective on Smiling and Laughter Detection: Intensity Levels
Matter
- Title(参考訳): 笑顔と笑いの検出に関する新しい視点--強度レベルは重要か
- Authors: Hugo Bohy, Kevin El Haddad and Thierry Dutoit
- Abstract要約: 深層学習に基づくマルチモーダル笑顔・笑い分類システムを提案する。
我々は、融合アプローチと同様に、オーディオモデルと視覚モデルの使用を比較した。
予想通り、融合は、目に見えないデータに対してより良い一般化をもたらすことを示す。
- 参考スコア(独自算出の注目度): 4.493507573183109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smiles and laughs detection systems have attracted a lot of attention in the
past decade contributing to the improvement of human-agent interaction systems.
But very few considered these expressions as distinct, although no prior work
clearly proves them to belong to the same category or not. In this work, we
present a deep learning-based multimodal smile and laugh classification system,
considering them as two different entities. We compare the use of audio and
vision-based models as well as a fusion approach. We show that, as expected,
the fusion leads to a better generalization on unseen data. We also present an
in-depth analysis of the behavior of these models on the smiles and laughs
intensity levels. The analyses on the intensity levels show that the
relationship between smiles and laughs might not be as simple as a binary one
or even grouping them in a single category, and so, a more complex approach
should be taken when dealing with them. We also tackle the problem of limited
resources by showing that transfer learning allows the models to improve the
detection of confusing intensity levels.
- Abstract(参考訳): 過去10年間、スマイルと笑い検出システムは人間とエージェントのインタラクションシステムの改善に多くの注目を集めてきた。
しかし、これらの表現を区別していると考える者はごくわずかであるが、先行研究によってそれらが同じカテゴリーに属するか否かが明確に証明されていない。
本研究では,深層学習に基づくマルチモーダルスマイルと笑いの分類システムを提案する。
音声と視覚に基づくモデルの使用と融合アプローチの比較を行った。
予想通り、融合は目に見えないデータに対してより良い一般化をもたらすことを示す。
また,笑顔と笑いの強さレベルにおけるモデル行動の詳細な分析を行った。
強度レベルの分析では、笑顔と笑いの関係は二進法ほど単純ではないか、あるいは一つのカテゴリーにグループ化してもよいため、それを扱う際にはより複雑なアプローチをとる必要がある。
また, 伝達学習により, モデルが混乱した強度レベルの検出を改善できることを示すことで, 限られた資源の問題にも対処した。
関連論文リスト
- RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:08:08Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - Impact of annotation modality on label quality and model performance in
the automatic assessment of laughter in-the-wild [8.242747994568212]
笑いの知覚と注釈が、笑いの身体の動きを通じて、ビデオのような他のモダリティとアノテートされたときにどう違うかは、はっきりしない。
我々は、笑いの注釈がモダリティ間で一致しているかどうかを問うとともに、モダリティのラベル付けが機械学習モデルの性能に与える影響を比較した。
48のアノテーションから4000以上のアノテーションを解析したところ、笑いの知覚における矛盾の証拠と、そのモダリティ間の強度が明らかとなった。
論文 参考訳(メタデータ) (2022-11-02T00:18:08Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Do Self-Supervised and Supervised Methods Learn Similar Visual
Representations? [3.1594831736896025]
コンストラシティブな自己教師付きアルゴリズム(SimCLR)と、共通アーキテクチャにおける単純な画像データの監視を比較した。
両手法は相似的な方法で類似の中間表現を学習し,最後の数層で表現が急速に発散することがわかった。
我々の研究は特に、学習した中間表現の重要性を強調し、補助的なタスク設計において重要な疑問を提起する。
論文 参考訳(メタデータ) (2021-10-01T16:51:29Z) - Improved Xception with Dual Attention Mechanism and Feature Fusion for
Face Forgery Detection [6.718457497370086]
顔偽造検出は近年研究ホットスポットとなっている。
顔偽造検出のための二重注意機構と特徴融合を備えた改良型Xceptionを提案する。
3つのDeepfakeデータセットで評価した結果,提案手法がXceptionより優れていることが示された。
論文 参考訳(メタデータ) (2021-09-29T01:54:13Z) - ReSSL: Relational Self-Supervised Learning with Weak Augmentation [68.47096022526927]
自己教師付き学習は、データアノテーションなしで視覚表現を学ぶことに成功しました。
本稿では,異なるインスタンス間の関係をモデル化して表現を学習する新しいリレーショナルSSLパラダイムを提案する。
提案したReSSLは,性能とトレーニング効率の両面で,従来の最先端アルゴリズムよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-07-20T06:53:07Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Hard Negative Mixing for Contrastive Learning [29.91220669060252]
我々は、コントラスト学習の重要な側面、すなわちハードネガティブの影響は、これまで無視されてきたと論じている。
計算オーバーヘッドを最小限に抑えながら、オンザフライで計算できる機能レベルでのハードネガティブな混合戦略を提案する。
論文 参考訳(メタデータ) (2020-10-02T14:34:58Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。