論文の概要: Weakly-supervised Multi-task Learning for Multimodal Affect Recognition
- arxiv url: http://arxiv.org/abs/2104.11560v1
- Date: Fri, 23 Apr 2021 12:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 15:31:34.087088
- Title: Weakly-supervised Multi-task Learning for Multimodal Affect Recognition
- Title(参考訳): 弱教師付きマルチタスク学習によるマルチモーダル影響認識
- Authors: Wenliang Dai, Samuel Cahyawijaya, Yejin Bang, Pascale Fung
- Abstract要約: 本稿では,教師なしマルチタスク学習を用いたデータセットを活用した一般化性能の向上を提案する。
具体的には、1感情認識、2感情分析、3サーカスム認識の3つのマルチモーダル影響認識タスクについて検討する。
実験の結果,マルチタスクは全てのタスクに有効であり,精度は2.9%,F1スコアは3.3%向上した。
- 参考スコア(独自算出の注目度): 33.7929682119287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal affect recognition constitutes an important aspect for enhancing
interpersonal relationships in human-computer interaction. However, relevant
data is hard to come by and notably costly to annotate, which poses a
challenging barrier to build robust multimodal affect recognition systems.
Models trained on these relatively small datasets tend to overfit and the
improvement gained by using complex state-of-the-art models is marginal
compared to simple baselines. Meanwhile, there are many different multimodal
affect recognition datasets, though each may be small. In this paper, we
propose to leverage these datasets using weakly-supervised multi-task learning
to improve the generalization performance on each of them. Specifically, we
explore three multimodal affect recognition tasks: 1) emotion recognition; 2)
sentiment analysis; and 3) sarcasm recognition. Our experimental results show
that multi-tasking can benefit all these tasks, achieving an improvement up to
2.9% accuracy and 3.3% F1-score. Furthermore, our method also helps to improve
the stability of model performance. In addition, our analysis suggests that
weak supervision can provide a comparable contribution to strong supervision if
the tasks are highly correlated.
- Abstract(参考訳): マルチモーダルな感情認識は、人間とコンピュータの相互作用における対人関係を高める重要な側面である。
しかし、関連するデータは注釈を付けるのが難しく、特にコストがかかるため、堅牢なマルチモーダル影響認識システムを構築する上で難しい障壁となる。
これらの比較的小さなデータセットでトレーニングされたモデルは、過剰に適合しがちであり、複雑な最先端モデルを使用することによる改善は、単純なベースラインと比べて限界である。
一方、多くの異なるマルチモーダルな影響データセットがあるが、それぞれが小さいかもしれない。
本稿では,これらのデータセットを弱教師付きマルチタスク学習を用いて活用し,それらの一般化性能を向上させることを提案する。
具体的には,1) 感情認識, 2) 感情分析, 3) 皮肉認識の3つのタスクについて検討する。
実験の結果,マルチタスクは全てのタスクに有効であり,精度は2.9%,F1スコアは3.3%向上した。
さらに,本手法はモデル性能の安定性向上にも寄与する。
さらに分析の結果,タスクの相関性が高い場合には,弱い監督が強い監督に匹敵する貢献をする可能性が示唆された。
関連論文リスト
- Multimodal Visual-Tactile Representation Learning through
Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文 参考訳(メタデータ) (2024-01-22T15:11:57Z) - MMOE: Mixture of Multimodal Interaction Experts [115.20477067767399]
MMOEはマルチモーダルインタラクションの専門家の混在を指す。
本手法は, ラベルのないマルチモーダルデータセットから, 対話タイプによって自動的にデータポイントを分類し, それぞれのインタラクションに特化モデルを用いる。
実験結果から,本手法は,これらの課題のあるインタラクションのパフォーマンスを10%以上向上させ,皮肉な予測などのタスクに対して全体の2%向上をもたらす。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Identifiability Results for Multimodal Contrastive Learning [72.15237484019174]
本研究では,以前研究したマルチビュー設定よりも,より一般的な設定で共有要因を復元可能であることを示す。
本研究は,マルチモーダル表現学習の理論的基盤を提供し,マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。
論文 参考訳(メタデータ) (2023-03-16T09:14:26Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition [1.869225486385596]
複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。
我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。
マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T10:39:16Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z) - Attend And Discriminate: Beyond the State-of-the-Art for Human Activity
Recognition using Wearable Sensors [22.786406177997172]
ウェアラブルは、人間の活動に対する理解を改善するための基本です。
我々は、豊かで高度に差別化された活動表現を学ぶための新しい機会を精力的に探求する。
我々の貢献は4つの多様な活動認識問題ベンチマークにおいて、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-07-14T16:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。