論文の概要: A New Perspective on Smiling and Laughter Detection: Intensity Levels
Matter
- arxiv url: http://arxiv.org/abs/2403.02112v1
- Date: Mon, 4 Mar 2024 15:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:28:15.219564
- Title: A New Perspective on Smiling and Laughter Detection: Intensity Levels
Matter
- Title(参考訳): 笑顔と笑いの検出に関する新しい視点--強度レベルは重要か
- Authors: Hugo Bohy, Kevin El Haddad and Thierry Dutoit
- Abstract要約: 深層学習に基づくマルチモーダル笑顔・笑い分類システムを提案する。
我々は、融合アプローチと同様に、オーディオモデルと視覚モデルの使用を比較した。
予想通り、融合は、目に見えないデータに対してより良い一般化をもたらすことを示す。
- 参考スコア(独自算出の注目度): 4.493507573183109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smiles and laughs detection systems have attracted a lot of attention in the
past decade contributing to the improvement of human-agent interaction systems.
But very few considered these expressions as distinct, although no prior work
clearly proves them to belong to the same category or not. In this work, we
present a deep learning-based multimodal smile and laugh classification system,
considering them as two different entities. We compare the use of audio and
vision-based models as well as a fusion approach. We show that, as expected,
the fusion leads to a better generalization on unseen data. We also present an
in-depth analysis of the behavior of these models on the smiles and laughs
intensity levels. The analyses on the intensity levels show that the
relationship between smiles and laughs might not be as simple as a binary one
or even grouping them in a single category, and so, a more complex approach
should be taken when dealing with them. We also tackle the problem of limited
resources by showing that transfer learning allows the models to improve the
detection of confusing intensity levels.
- Abstract(参考訳): 過去10年間、スマイルと笑い検出システムは人間とエージェントのインタラクションシステムの改善に多くの注目を集めてきた。
しかし、これらの表現を区別していると考える者はごくわずかであるが、先行研究によってそれらが同じカテゴリーに属するか否かが明確に証明されていない。
本研究では,深層学習に基づくマルチモーダルスマイルと笑いの分類システムを提案する。
音声と視覚に基づくモデルの使用と融合アプローチの比較を行った。
予想通り、融合は目に見えないデータに対してより良い一般化をもたらすことを示す。
また,笑顔と笑いの強さレベルにおけるモデル行動の詳細な分析を行った。
強度レベルの分析では、笑顔と笑いの関係は二進法ほど単純ではないか、あるいは一つのカテゴリーにグループ化してもよいため、それを扱う際にはより複雑なアプローチをとる必要がある。
また, 伝達学習により, モデルが混乱した強度レベルの検出を改善できることを示すことで, 限られた資源の問題にも対処した。
関連論文リスト
- Boosting Weak Positives for Text Based Person Search [0.0]
トレーニング中の挑戦的なサンプルを動的に識別し,強調するブースティング手法を導入する。
提案手法は,提案モジュールの有効性を実証し,4つの歩行者データセット間での性能向上を実現する。
論文 参考訳(メタデータ) (2025-01-29T11:41:07Z) - Low-rank Prompt Interaction for Continual Vision-Language Retrieval [47.323830129786145]
本稿では,マルチモーダル理解の問題に対処するために,低ランクプロンプトインタラクションを提案する。
トレーニングパラメータがレイヤー数やタスク数にスケールすることを考えると、低ランクな相互作用強化分解を提案する。
また、ロバストネストレーニングを確保するために、階層的な低ランクのコントラスト学習を採用しています。
論文 参考訳(メタデータ) (2025-01-24T10:00:47Z) - RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:08:08Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - Impact of annotation modality on label quality and model performance in
the automatic assessment of laughter in-the-wild [8.242747994568212]
笑いの知覚と注釈が、笑いの身体の動きを通じて、ビデオのような他のモダリティとアノテートされたときにどう違うかは、はっきりしない。
我々は、笑いの注釈がモダリティ間で一致しているかどうかを問うとともに、モダリティのラベル付けが機械学習モデルの性能に与える影響を比較した。
48のアノテーションから4000以上のアノテーションを解析したところ、笑いの知覚における矛盾の証拠と、そのモダリティ間の強度が明らかとなった。
論文 参考訳(メタデータ) (2022-11-02T00:18:08Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - ReSSL: Relational Self-Supervised Learning with Weak Augmentation [68.47096022526927]
自己教師付き学習は、データアノテーションなしで視覚表現を学ぶことに成功しました。
本稿では,異なるインスタンス間の関係をモデル化して表現を学習する新しいリレーショナルSSLパラダイムを提案する。
提案したReSSLは,性能とトレーニング効率の両面で,従来の最先端アルゴリズムよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-07-20T06:53:07Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Hard Negative Mixing for Contrastive Learning [29.91220669060252]
我々は、コントラスト学習の重要な側面、すなわちハードネガティブの影響は、これまで無視されてきたと論じている。
計算オーバーヘッドを最小限に抑えながら、オンザフライで計算できる機能レベルでのハードネガティブな混合戦略を提案する。
論文 参考訳(メタデータ) (2020-10-02T14:34:58Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。