論文の概要: Sarcasm in Sight and Sound: Benchmarking and Expansion to Improve
Multimodal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2310.01430v1
- Date: Fri, 29 Sep 2023 07:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:10:48.579927
- Title: Sarcasm in Sight and Sound: Benchmarking and Expansion to Improve
Multimodal Sarcasm Detection
- Title(参考訳): 視覚と音におけるサーカズム:マルチモーダルサーカズム検出を改善するためのベンチマークと拡張
- Authors: Swapnil Bhosale, Abhra Chaudhuri, Alex Lee Robert Williams, Divyank
Tiwari, Anjan Dutta, Xiatian Zhu, Pushpak Bhattacharyya, Diptesh Kanojia
- Abstract要約: 我々は、MUStARDデータセットを最先端の言語、スピーチ、ビジュアルエンコーダでベンチマークし、提供しなければならないマルチモーダルリッチネスの総量を完全に活用する。
emphMUStARD++ Balancedと呼ばれるエクステンションを提案し、エクステンションのインスタンスを列車とテストセットの両方に分割してベンチマークし、さらに2.4%のマクロF1向上を実現した。
- 参考スコア(独自算出の注目度): 68.82684696740134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The introduction of the MUStARD dataset, and its emotion recognition
extension MUStARD++, have identified sarcasm to be a multi-modal phenomenon --
expressed not only in natural language text, but also through manners of speech
(like tonality and intonation) and visual cues (facial expression). With this
work, we aim to perform a rigorous benchmarking of the MUStARD++ dataset by
considering state-of-the-art language, speech, and visual encoders, for fully
utilizing the totality of the multi-modal richness that it has to offer,
achieving a 2\% improvement in macro-F1 over the existing benchmark.
Additionally, to cure the imbalance in the `sarcasm type' category in
MUStARD++, we propose an extension, which we call \emph{MUStARD++ Balanced},
benchmarking the same with instances from the extension split across both train
and test sets, achieving a further 2.4\% macro-F1 boost. The new clips were
taken from a novel source -- the TV show, House MD, which adds to the diversity
of the dataset, and were manually annotated by multiple annotators with
substantial inter-annotator agreement in terms of Cohen's kappa and
Krippendorf's alpha. Our code, extended data, and SOTA benchmark models are
made public.
- Abstract(参考訳): mustardデータセットとその感情認識拡張であるmustard++の導入により、サルカズムは自然言語テキストだけでなく、音声(調性やイントネーションなど)や視覚的な手がかり(顔の表情)を通じて表現されるマルチモーダル現象であると認識された。
本研究は,MUStARD++データセットの厳密なベンチマークを,最先端の言語,音声,ビジュアルエンコーダを考慮し,既存のベンチマークに対してマクロF1の2倍の改善を達成し,提供すべきマルチモーダルリッチの総量を完全に活用することを目的としている。
さらに、MUStARD++の 'sarcasm type' カテゴリのアンバランスを改善するために、我々は拡張を \emph{MUStARD++ Balanced} と呼び、列車とテストセットの両方にまたがる拡張からインスタンスをベンチマークし、さらに2.4\%のマクロF1ブースターを達成する。
新しいクリップは、テレビ番組『House MD』で、データセットの多様性を増し、コーエンの『カッパ』と『クリッペンドルフ』の『アルファ』の点から、アノテーター間の合意がかなりある複数のアノテーターによって手動で注釈付けされた。
私たちのコード、拡張データ、SOTAベンチマークモデルは公開されています。
関連論文リスト
- MoTE: Reconciling Generalization with Specialization for Visual-Language to Video Knowledge Transfer [20.261021985218648]
一般化と特殊化を一つの統一モデルでバランスよく行える新しいフレームワークであるMoTEを提案する。
提案手法は,複数のタスクビューをさまざまなデータ適合度で学習するために,時間的専門家の混在をチューニングする。
我々は、ゼロショットとクローズセットのビデオ認識タスクの健全なバランスを達成し、様々なデータセットで最先端または競合的な結果を得る。
論文 参考訳(メタデータ) (2024-10-14T15:00:55Z) - VyAnG-Net: A Novel Multi-Modal Sarcasm Recognition Model by Uncovering Visual, Acoustic and Glossary Features [13.922091192207718]
サルカズム認識は、日常の対話に埋め込まれた隠された皮肉、批判、比喩的な情報を識別することを目的としている。
本稿では,軽量な奥行き注意モジュールと自己制御型ConvNetを組み合わせることで,視覚データの最も重要な特徴に集中する手法を提案する。
我々はまた、別のデータセットMUStARD++の見知らぬサンプルを用いて、VyAnG-Netの適応性をテストするために、クロスデータセット解析を行った。
論文 参考訳(メタデータ) (2024-08-05T15:36:52Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - FF2: A Feature Fusion Two-Stream Framework for Punctuation Restoration [27.14686854704104]
句読点復元のためのFeature Fusion two-stream framework (FF2)を提案する。
具体的には、あるストリームは、事前訓練された言語モデルを利用してセマンティック機能をキャプチャし、別の補助モジュールは、手元にある機能をキャプチャする。
追加データなしでは、人気のあるベンチマークIWSLTの実験結果はFF2が新しいSOTA性能を達成することを実証している。
論文 参考訳(メタデータ) (2022-11-09T06:18:17Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。