論文の概要: Multimodal Learning using Optimal Transport for Sarcasm and Humor
Detection
- arxiv url: http://arxiv.org/abs/2110.10949v1
- Date: Thu, 21 Oct 2021 07:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 07:25:28.560160
- Title: Multimodal Learning using Optimal Transport for Sarcasm and Humor
Detection
- Title(参考訳): 最適輸送を用いたマルチモーダル学習によるサルカズムと覚醒検出
- Authors: Shraman Pramanick, Aniket Roy and Vishal M. Patel
- Abstract要約: 会話ビデオと画像テキストのペアからマルチモーダルサルカズムとユーモアを検出する。
本稿では,モーダル内対応を利用したマルチモーダル学習システム MuLOT を提案する。
3つのベンチマークデータセット上で,マルチモーダルサルカズムとユーモア検出のためのアプローチを検証した。
- 参考スコア(独自算出の注目度): 76.62550719834722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning is an emerging yet challenging research area. In this
paper, we deal with multimodal sarcasm and humor detection from conversational
videos and image-text pairs. Being a fleeting action, which is reflected across
the modalities, sarcasm detection is challenging since large datasets are not
available for this task in the literature. Therefore, we primarily focus on
resource-constrained training, where the number of training samples is limited.
To this end, we propose a novel multimodal learning system, MuLOT (Multimodal
Learning using Optimal Transport), which utilizes self-attention to exploit
intra-modal correspondence and optimal transport for cross-modal
correspondence. Finally, the modalities are combined with multimodal attention
fusion to capture the inter-dependencies across modalities. We test our
approach for multimodal sarcasm and humor detection on three benchmark datasets
- MUStARD (video, audio, text), UR-FUNNY (video, audio, text), MST (image,
text) and obtain 2.1%, 1.54%, and 2.34% accuracy improvements over
state-of-the-art.
- Abstract(参考訳): マルチモーダル学習は、新しいが挑戦的な研究分野である。
本稿では,会話ビデオと画像テキストのペアによるマルチモーダルサルカズムとユーモア検出について述べる。
モダリティにまたがって反映されるフリーティングアクションであるため、大きなデータセットが文献でこのタスクには利用できないため、サルカズム検出は困難である。
そこで,本研究では,トレーニングサンプル数に制限がある資源制約トレーニングに着目した。
そこで本研究では,モーダル内対応とモーダル間対応のための最適な移動を実現するために,自己注意を利用したマルチモーダル学習システム MuLOT (Multimodal Learning using Optimal Transport) を提案する。
最後に、モダリティをマルチモーダルアテンション融合と組み合わせて、モダリティ間の依存性を捉える。
MUStARD (ビデオ, 音声, テキスト), UR-FUNNY (ビデオ, 音声, テキスト), MST (画像, テキスト) の3つのベンチマークデータセットを用いて, マルチモーダルサルカズムとユーモア検出のアプローチを検証し, 現状よりも2.1%, 1.54%, 2.34%の精度向上を実現した。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Mamba-Enhanced Text-Audio-Video Alignment Network for Emotion Recognition in Conversations [15.748798247815298]
本稿では,会話における感情認識のための新しいマンバエンハンステキスト・ビデオアライメントネットワーク(MaTAV)を提案する。
MaTAVは、異なるモダリティ間の整合性を確保するためにユニモーダル機能を整列させ、コンテキストのマルチモーダル情報をよりよくキャプチャするために長い入力シーケンスを処理するという利点がある。
論文 参考訳(メタデータ) (2024-09-08T23:09:22Z) - Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding [7.329728566839757]
ブロック認識型prompt Fusion (MoPE-BAF) を用いたMixture-of-prompt-Expertsを提案する。
MoPE-BAFは、統合視覚言語モデル(VLM)に基づく、新しいマルチモーダルソフトプロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-03-17T19:12:26Z) - Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-22T05:24:19Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - On Robustness in Multimodal Learning [75.03719000820388]
マルチモーダル学習は、ビデオ、オーディオ、テキストなどの複数の入力モダリティの学習として定義される。
本稿では,一般的なマルチモーダル表現学習手法の体系的解析を行うためのマルチモーダルロバストネスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:02:07Z) - Cross-modal Contrastive Learning for Multimodal Fake News Detection [10.760000041969139]
COOLANTはマルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習フレームワークである。
クロスモーダル融合モジュールは、クロスモーダル相関を学習するために開発された。
アテンションガイダンスモジュールは、アライメントされたユニモーダル表現を効果的かつ解釈可能に集約するために実装される。
論文 参考訳(メタデータ) (2023-02-25T10:12:34Z) - TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。
XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。
本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文 参考訳(メタデータ) (2022-10-16T08:19:59Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。