Fugu-MT 論文翻訳(概要): Hybrid Multimodal Fusion for Humor Detection

論文の概要: Hybrid Multimodal Fusion for Humor Detection

arxiv url: http://arxiv.org/abs/2209.11949v1
Date: Sat, 24 Sep 2022 07:45:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-27 14:01:36.798557
Title: Hybrid Multimodal Fusion for Humor Detection
Title（参考訳）: ユーモア検出のためのハイブリッドマルチモーダル融合
Authors: Haojie Xu, Weifeng Liu, Jingwei Liu, Mingzheng Li, Yu Feng, Yasi Peng, Yunwei Shi, Xiao Sun and Meng Wang
Abstract要約: 我々は,2022年のMultimodal Emotional Challenge (MuSe) の MuSe-Humor sub-challenge に対するソリューションを提案する。 MuSe-Humor sub-challengeの目標は、ドイツのサッカー・ブンデスリーガ・プレス・カンファレンスの音声映像記録からユーモアを検出し、AUCを計算することである。
参考スコア（独自算出の注目度）: 16.178078156094067
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present our solution to the MuSe-Humor sub-challenge of the Multimodal Emotional Challenge (MuSe) 2022. The goal of the MuSe-Humor sub-challenge is to detect humor and calculate AUC from audiovisual recordings of German football Bundesliga press conferences. It is annotated for humor displayed by the coaches. For this sub-challenge, we first build a discriminant model using the transformer module and BiLSTM module, and then propose a hybrid fusion strategy to use the prediction results of each modality to improve the performance of the model. Our experiments demonstrate the effectiveness of our proposed model and hybrid fusion strategy on multimodal fusion, and the AUC of our proposed model on the test set is 0.8972.
Abstract（参考訳）: 本稿では,Multimodal Emotional Challenge (MuSe) 2022の MuSe-Humor sub-challenge について述べる。 MuSe-Humorサブチャレンジの目標は、ドイツのサッカー・ブンデスリーガ・プレス・カンファレンスの音声映像記録からユーモアを検出し、AUCを計算することである。コーチによるユーモアの注釈が付けられている。このサブキャレンジに対して,まずトランスフォーマーモジュールとbilstmモジュールを用いた識別モデルを構築し,次に各モードの予測結果を用いてモデルの性能を向上させるハイブリッド融合戦略を提案する。実験では,本モデルとハイブリッド核融合戦略がマルチモーダル核融合に及ぼす影響を実証し,テストセット上でのモデルAUCは0.8972である。

関連論文リスト

HaploOmni: Unified Single Transformer for Multimodal Video Understanding and Generation [69.34266162474836]
本稿では,マルチモーダル理解と生成を統一する単一トランスフォーマーを構築するための,効率的なトレーニングパラダイムについて検討する。機能事前スケーリングとマルチモーダルAdaLN技術を導入し、クロスモーダル互換性の課題に対処する。本稿では,新しいマルチモーダルトランスであるHaplo Omniを紹介する。
論文参考訳（メタデータ） (2025-06-03T15:14:00Z)
Dynamic Multimodal Fusion via Meta-Learning Towards Micro-Video Recommendation [97.82707398481273]
メタマルチモーダルフュージョン(MetaMMF)と呼ばれるメタラーニングに基づく新しいマルチモーダルフュージョンフレームワークを開発する。メタMMFは、入力タスクのマルチモーダル特徴から抽出されたメタ情報に基づいて、メタラーナを介して、アイテム固有の融合関数としてニューラルネットワークをパラメータ化する。我々は3つのベンチマークデータセットに対して広範な実験を行い、最先端のマルチモーダルレコメンデーションモデルに対する大幅な改善を実証した。
論文参考訳（メタデータ） (2025-01-13T07:51:43Z)
Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文参考訳（メタデータ） (2024-12-11T18:57:32Z)
MH-MoE: Multi-Head Mixture-of-Experts [119.47867308669764]
MH-MoE(Multi-Head Mixture-of-Experts)は,MH-MoE(Multi-Head Mixture-of-Experts)とMH-MoE(Multi-Head Mixture-of-Experts,MH-MoE)を併用して,様々な専門家の表現空間からの情報収集を行う。 FLOPとパラメータパリティの両方をスパースミキサーモデルで維持するMH-MoEの新たな実装を提案する。
論文参考訳（メタデータ） (2024-11-25T09:05:36Z)
DepMamba: Progressive Fusion Mamba for Multimodal Depression Detection [37.701518424351505]
うつ病は世界中で何百万人もの人に影響を及ぼす一般的な精神疾患である。 DepMambaと呼ばれるマルチモーダル抑うつ検出のための音声-視覚的プログレッシブ・フュージョン・マンバを提案する。
論文参考訳（メタデータ） (2024-09-24T09:58:07Z)
SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognition [65.19303535139453]
我々は,マルチモーダル感情認識におけるMER2024チャレンジのMER-NOISEとMER-OVトラックに対する勝利のアプローチを示す。 Emotion-LLaMAの高度な感情理解機能を利用して、ラベルなしサンプルの高品質なアノテーションを生成する。 MER-OVトラックでは,オープンボキャブラリアノテーションにEmotion-LLaMAを用いることで,GPT-4Vと比較して平均精度とリコールが8.52%向上した。
論文参考訳（メタデータ） (2024-08-20T02:46:03Z)
CANAMRF: An Attention-Based Model for Multimodal Depression Detection [7.266707571724883]
適応型マルチモーダルリカレントフュージョン(CANAMRF)を用いたマルチモーダル抑うつ検出のためのクロスモーダルアテンションネットワークを提案する。 CANAMRFは、マルチモーダル特徴抽出器、アダプティブマルチモーダルリカレントフュージョンモジュール、ハイブリッドアテンションモジュールによって構成されている。
論文参考訳（メタデータ） (2024-01-04T12:08:16Z)
MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。 MMoEは様々な種類のモデルに適用でき、改善できる。
論文参考訳（メタデータ） (2023-11-16T05:31:21Z)
Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文参考訳（メタデータ） (2023-05-19T05:50:24Z)
DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文参考訳（メタデータ） (2023-03-13T04:06:42Z)
Hybrid Multimodal Feature Extraction, Mining and Fusion for Sentiment Analysis [31.097398034974436]
我々は,MuSe-Humor, MuSe-Reaction, MuSe-Stress Sub-challengesを含む2022年度のMultimodal Sentiment Analysis Challengeのソリューションを提案する。 MuSe 2022はユーモアの検出、感情反応、さまざまなモダリティとデータセットを活用するマルチモーダルな感情ストレスに焦点を当てている。
論文参考訳（メタデータ） (2022-08-05T09:07:58Z)
Hateful Memes Challenge: An Enhanced Multimodal Framework [0.0]
Facebook AIが提案したHateful Meme Challengeは、世界中の参加者を惹きつけている。この問題に対して様々な最先端のディープラーニングモデルが適用されている。本稿では,特徴抽出にTectronを活用することを含め,ヘイトフル検出の枠組みを強化する。
論文参考訳（メタデータ） (2021-12-20T07:47:17Z)
H2NF-Net for Brain Tumor Segmentation using Multimodal MR Imaging: 2nd Place Solution to BraTS Challenge 2020 Segmentation Task [96.49879910148854]
当社のH2NF-Netは、単一およびカスケードのHNF-Netを使用して、異なる脳腫瘍サブリージョンを分割します。我々は、マルチモーダル脳腫瘍チャレンジ(BraTS)2020データセットでモデルをトレーニングし、評価した。提案手法は,80名近い参加者のうち,brats 2020チャレンジセグメンテーションタスクで2位となった。
論文参考訳（メタデータ） (2020-12-30T20:44:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。