論文の概要: Video Sentiment Analysis with Bimodal Information-augmented Multi-Head
Attention
- arxiv url: http://arxiv.org/abs/2103.02362v1
- Date: Wed, 3 Mar 2021 12:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 15:02:48.026635
- Title: Video Sentiment Analysis with Bimodal Information-augmented Multi-Head
Attention
- Title(参考訳): bimodal information-augmented multi-head attentionを用いたビデオ感情分析
- Authors: Ting Wu, Junjie Peng, Wenqiang Zhang, Huiran Zhang, Chuanshuai Ma and
Yansong Huang
- Abstract要約: 本研究では,複数のモダリティの時系列データを含むビデオの感情分析に注目する。
重要な問題は、これらの異種データをどのように融合するかです。
バイモーダル相互作用に基づいて、より重要なバイモーダル特徴はより大きな重みが割り当てられる。
- 参考スコア(独自算出の注目度): 7.997124140597719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis is the basis of intelligent human-computer interaction. As
one of the frontier research directions of artificial intelligence, it can help
computers better identify human intentions and emotional states so that provide
more personalized services. However, as human present sentiments by spoken
words, gestures, facial expressions and others which involve variable forms of
data including text, audio, video, etc., it poses many challenges to this
study. Due to the limitations of unimodal sentiment analysis, recent research
has focused on the sentiment analysis of videos containing time series data of
multiple modalities. When analyzing videos with multimodal data, the key
problem is how to fuse these heterogeneous data. In consideration that the
contribution of each modality is different, current fusion methods tend to
extract the important information of single modality prior to fusion, which
ignores the consistency and complementarity of bimodal interaction and has
influences on the final decision. To solve this problem, a video sentiment
analysis method using multi-head attention with bimodal information augmented
is proposed. Based on bimodal interaction, more important bimodal features are
assigned larger weights. In this way, different feature representations are
adaptively assigned corresponding attention for effective multimodal fusion.
Extensive experiments were conducted on both Chinese and English public
datasets. The results show that our approach outperforms the existing methods
and can give an insight into the contributions of bimodal interaction among
three modalities.
- Abstract(参考訳): 感覚分析は知的人間とコンピュータの相互作用の基礎である。
人工知能のフロンティア研究の方向性の1つとして、コンピュータが人間の意図や感情状態を識別し、よりパーソナライズされたサービスを提供するのに役立つ。
しかし, 音声, ジェスチャー, 表情など, テキスト, 音声, ビデオなど, 多様な形式のデータを含む人間の感情が表れているため, 本研究には多くの課題が生じる。
単一感情分析の限界のために、最近の研究は、複数のモダリティの時系列データを含むビデオの感情分析に焦点を当てています。
マルチモーダルデータでビデオを分析する場合、重要な問題は、これらの異種データを融合する方法です。
それぞれのモダリティの寄与が異なることを考慮し、現在の融合法は融合の前に単一のモダリティの重要な情報を抽出する傾向にあり、バイモーダル相互作用の一貫性と相補性を無視し、最終的な決定に影響を及ぼす。
この問題を解決するために,バイモーダル情報拡張によるマルチヘッドアテンションを用いた映像感情分析手法を提案する。
バイモーダル相互作用に基づいて、より重要なバイモーダル特徴はより大きな重みが割り当てられる。
このように、異なる特徴表現は、効果的なマルチモーダル融合のために適応的に対応する注意を割り当てられる。
中国語と英語の公開データセットで広範な実験が行われた。
その結果,本手法は既存の手法よりも優れており,3つのモード間のバイモーダル相互作用の寄与について考察できることがわかった。
関連論文リスト
- Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - End-to-end Semantic-centric Video-based Multimodal Affective Computing [27.13963885724786]
本稿では,セマンティックMAC(SemanticMAC)という新しいエンドツーエンドフレームワークを提案する。
我々は、マルチモーダルデータ前処理とAffective Perceiverモジュールの設計において、事前学習したTransformerモデルを用いて、非モーダル感情情報をキャプチャする。
セマンティックMACは意味中心ラベルのガイダンスにおいて、特定の意味表現と共有意味表現を効果的に学習する。
論文 参考訳(メタデータ) (2024-08-14T17:50:27Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Multimodal Representations Learning Based on Mutual Information
Maximization and Minimization and Identity Embedding for Multimodal Sentiment
Analysis [33.73730195500633]
相互情報の最大化とアイデンティティの埋め込みに基づくマルチモーダル表現モデルを提案する。
2つの公開データセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-01-10T01:41:39Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。