論文の概要: Make Acoustic and Visual Cues Matter: CH-SIMS v2.0 Dataset and AV-Mixup
Consistent Module
- arxiv url: http://arxiv.org/abs/2209.02604v1
- Date: Mon, 22 Aug 2022 03:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-11 13:20:31.889358
- Title: Make Acoustic and Visual Cues Matter: CH-SIMS v2.0 Dataset and AV-Mixup
Consistent Module
- Title(参考訳): CH-SIMS v2.0データセットとAV-Mixup Consistent Module
- Authors: Yihe Liu, Ziqi Yuan, Huisheng Mao, Zhiyun Liang, Wanqiuyue Yang,
Yuanzhe Qiu, Tie Cheng, Xiaoteng Li, Hua Xu, Kai Gao
- Abstract要約: マルチモーダル感情分析(MSA)は、ヒューマン・コンピュータ・インタラクション(HCI)における可能性から、新たな研究分野である。
本研究は,MSAタスクの非言語的手がかりを重要視するものである。
- 参考スコア(独自算出の注目度): 10.785594919904142
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal sentiment analysis (MSA), which supposes to improve text-based
sentiment analysis with associated acoustic and visual modalities, is an
emerging research area due to its potential applications in Human-Computer
Interaction (HCI). However, the existing researches observe that the acoustic
and visual modalities contribute much less than the textual modality, termed as
text-predominant. Under such circumstances, in this work, we emphasize making
non-verbal cues matter for the MSA task. Firstly, from the resource
perspective, we present the CH-SIMS v2.0 dataset, an extension and enhancement
of the CH-SIMS. Compared with the original dataset, the CH-SIMS v2.0 doubles
its size with another 2121 refined video segments with both unimodal and
multimodal annotations and collects 10161 unlabelled raw video segments with
rich acoustic and visual emotion-bearing context to highlight non-verbal cues
for sentiment prediction. Secondly, from the model perspective, benefiting from
the unimodal annotations and the unsupervised data in the CH-SIMS v2.0, the
Acoustic Visual Mixup Consistent (AV-MC) framework is proposed. The designed
modality mixup module can be regarded as an augmentation, which mixes the
acoustic and visual modalities from different videos. Through drawing
unobserved multimodal context along with the text, the model can learn to be
aware of different non-verbal contexts for sentiment prediction. Our
evaluations demonstrate that both CH-SIMS v2.0 and AV-MC framework enables
further research for discovering emotion-bearing acoustic and visual cues and
paves the path to interpretable end-to-end HCI applications for real-world
scenarios.
- Abstract(参考訳): マルチモーダル感情分析(MSA)は、ヒューマン・コンピュータ・インタラクション(HCI)における可能性から、テキストベースの感情分析を関連する音響的・視覚的モダリティによって改善すると考えられている。
しかし、既存の研究では、音響的および視覚的モダリティが、テキスト優位と呼ばれるテキスト的モダリティよりもずっと少ないことが観察されている。
このような状況下では,本研究では,非言語的手がかりをmsaタスクに重要視することを重視する。
まず、資源の観点からCH-SIMS v2.0データセットを示し、CH-SIMSの拡張と強化を行う。
オリジナルのデータセットと比較すると、CH-SIMS v2.0はそのサイズを2121個の改良されたビデオセグメントに2倍にし、非言語的な感情予測の手がかりを強調するために、豊かな音響的および視覚的感情を持つコンテキストを持つ10161個の未ラベルの生のビデオセグメントを収集する。
第2に、モデルの観点からは、CH-SIMS v2.0におけるunimodalアノテーションとunsupervised dataの恩恵を受け、AV-MCフレームワークを提案する。
デザインされたモダリティミックスアップモジュールは、異なるビデオからの音響と視覚のモダリティを混合する拡張モジュールと見なすことができる。
テキストとともに観察されていないマルチモーダルコンテキストを描画することで、モデルは感情予測のために異なる非言語コンテキストを認識することができる。
評価の結果,CH-SIMS v2.0 と AV-MC の両フレームワークは,感情を伴う音響的・視覚的手がかりの発見に役立ち,現実のシナリオに対するエンドツーエンド HCI アプリケーションへの道筋を舗装する。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - VILAS: Exploring the Effects of Vision and Language Context in Automatic
Speech Recognition [18.19998336526969]
ViLaS(Vision and Language into Automatic Speech Recognition)は、CIF(Continuous Integration-and-fire)機構に基づく新しいマルチモーダルASRモデルである。
視覚と言語を統合することの効果を探るため、中国語と英語の両バージョンでマルチモーダルコンテキストキューを備えたマルチモーダルASRデータセットであるVSDialを開発した。
論文 参考訳(メタデータ) (2023-05-31T16:01:20Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。