Fugu-MT 論文翻訳(概要): A New Perspective on Smiling and Laughter Detection: Intensity Levels Matter

論文の概要: A New Perspective on Smiling and Laughter Detection: Intensity Levels Matter

arxiv url: http://arxiv.org/abs/2403.02112v1
Date: Mon, 4 Mar 2024 15:15:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 18:28:15.219564
Title: A New Perspective on Smiling and Laughter Detection: Intensity Levels Matter
Title（参考訳）: 笑顔と笑いの検出に関する新しい視点--強度レベルは重要か
Authors: Hugo Bohy, Kevin El Haddad and Thierry Dutoit
Abstract要約: 深層学習に基づくマルチモーダル笑顔・笑い分類システムを提案する。我々は、融合アプローチと同様に、オーディオモデルと視覚モデルの使用を比較した。予想通り、融合は、目に見えないデータに対してより良い一般化をもたらすことを示す。
参考スコア（独自算出の注目度）: 4.493507573183109
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Smiles and laughs detection systems have attracted a lot of attention in the past decade contributing to the improvement of human-agent interaction systems. But very few considered these expressions as distinct, although no prior work clearly proves them to belong to the same category or not. In this work, we present a deep learning-based multimodal smile and laugh classification system, considering them as two different entities. We compare the use of audio and vision-based models as well as a fusion approach. We show that, as expected, the fusion leads to a better generalization on unseen data. We also present an in-depth analysis of the behavior of these models on the smiles and laughs intensity levels. The analyses on the intensity levels show that the relationship between smiles and laughs might not be as simple as a binary one or even grouping them in a single category, and so, a more complex approach should be taken when dealing with them. We also tackle the problem of limited resources by showing that transfer learning allows the models to improve the detection of confusing intensity levels.
Abstract（参考訳）: 過去10年間、スマイルと笑い検出システムは人間とエージェントのインタラクションシステムの改善に多くの注目を集めてきた。しかし、これらの表現を区別していると考える者はごくわずかであるが、先行研究によってそれらが同じカテゴリーに属するか否かが明確に証明されていない。本研究では,深層学習に基づくマルチモーダルスマイルと笑いの分類システムを提案する。音声と視覚に基づくモデルの使用と融合アプローチの比較を行った。予想通り、融合は目に見えないデータに対してより良い一般化をもたらすことを示す。また,笑顔と笑いの強さレベルにおけるモデル行動の詳細な分析を行った。強度レベルの分析では、笑顔と笑いの関係は二進法ほど単純ではないか、あるいは一つのカテゴリーにグループ化してもよいため、それを扱う際にはより複雑なアプローチをとる必要がある。また, 伝達学習により, モデルが混乱した強度レベルの検出を改善できることを示すことで, 限られた資源の問題にも対処した。

関連論文リスト

Boosting Weak Positives for Text Based Person Search [0.0]
トレーニング中の挑戦的なサンプルを動的に識別し,強調するブースティング手法を導入する。提案手法は,提案モジュールの有効性を実証し,4つの歩行者データセット間での性能向上を実現する。
論文参考訳（メタデータ） (2025-01-29T11:41:07Z)
Low-rank Prompt Interaction for Continual Vision-Language Retrieval [47.323830129786145]
本稿では,マルチモーダル理解の問題に対処するために,低ランクプロンプトインタラクションを提案する。トレーニングパラメータがレイヤー数やタスク数にスケールすることを考えると、低ランクな相互作用強化分解を提案する。また、ロバストネストレーニングを確保するために、階層的な低ランクのコントラスト学習を採用しています。
論文参考訳（メタデータ） (2025-01-24T10:00:47Z)
RelVAE: Generative Pretraining for few-shot Visual Relationship Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。 VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文参考訳（メタデータ） (2023-11-27T19:08:08Z)
MA2CL:Masked Attentive Contrastive Learning for Multi-Agent Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。 MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文参考訳（メタデータ） (2023-06-03T05:32:19Z)
Fairness meets Cross-Domain Learning: a new perspective on Models and Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文参考訳（メタデータ） (2023-03-25T09:34:05Z)
Impact of annotation modality on label quality and model performance in the automatic assessment of laughter in-the-wild [8.242747994568212]
笑いの知覚と注釈が、笑いの身体の動きを通じて、ビデオのような他のモダリティとアノテートされたときにどう違うかは、はっきりしない。我々は、笑いの注釈がモダリティ間で一致しているかどうかを問うとともに、モダリティのラベル付けが機械学習モデルの性能に与える影響を比較した。 48のアノテーションから4000以上のアノテーションを解析したところ、笑いの知覚における矛盾の証拠と、そのモダリティ間の強度が明らかとなった。
論文参考訳（メタデータ） (2022-11-02T00:18:08Z)
MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文参考訳（メタデータ） (2022-01-24T17:48:04Z)
Do Self-Supervised and Supervised Methods Learn Similar Visual Representations? [3.1594831736896025]
コンストラシティブな自己教師付きアルゴリズム(SimCLR)と、共通アーキテクチャにおける単純な画像データの監視を比較した。両手法は相似的な方法で類似の中間表現を学習し,最後の数層で表現が急速に発散することがわかった。我々の研究は特に、学習した中間表現の重要性を強調し、補助的なタスク設計において重要な疑問を提起する。
論文参考訳（メタデータ） (2021-10-01T16:51:29Z)
Improved Xception with Dual Attention Mechanism and Feature Fusion for Face Forgery Detection [6.718457497370086]
顔偽造検出は近年研究ホットスポットとなっている。顔偽造検出のための二重注意機構と特徴融合を備えた改良型Xceptionを提案する。 3つのDeepfakeデータセットで評価した結果,提案手法がXceptionより優れていることが示された。
論文参考訳（メタデータ） (2021-09-29T01:54:13Z)
ReSSL: Relational Self-Supervised Learning with Weak Augmentation [68.47096022526927]
自己教師付き学習は、データアノテーションなしで視覚表現を学ぶことに成功しました。本稿では,異なるインスタンス間の関係をモデル化して表現を学習する新しいリレーショナルSSLパラダイムを提案する。提案したReSSLは,性能とトレーニング効率の両面で,従来の最先端アルゴリズムよりも大幅に優れています。
論文参考訳（メタデータ） (2021-07-20T06:53:07Z)
Dynamic Semantic Matching and Aggregation Network for Few-shot Intent Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文参考訳（メタデータ） (2020-10-06T05:16:38Z)
Hard Negative Mixing for Contrastive Learning [29.91220669060252]
我々は、コントラスト学習の重要な側面、すなわちハードネガティブの影響は、これまで無視されてきたと論じている。計算オーバーヘッドを最小限に抑えながら、オンザフライで計算できる機能レベルでのハードネガティブな混合戦略を提案する。
論文参考訳（メタデータ） (2020-10-02T14:34:58Z)
Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文参考訳（メタデータ） (2020-07-19T07:24:45Z)
Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文参考訳（メタデータ） (2020-07-18T03:08:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。