論文の概要: Spoken in Jest, Detected in Earnest: A Systematic Review of Sarcasm Recognition -- Multimodal Fusion, Challenges, and Future Prospects
- arxiv url: http://arxiv.org/abs/2509.04605v1
- Date: Thu, 04 Sep 2025 18:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.388258
- Title: Spoken in Jest, Detected in Earnest: A Systematic Review of Sarcasm Recognition -- Multimodal Fusion, Challenges, and Future Prospects
- Title(参考訳): アーネストで検出されたジェストのスポット:サルカズム認識の体系的レビュー - マルチモーダルフュージョン、チャレンジ、今後の展望
- Authors: Xiyuan Gao, Shekhar Nayak, Matt Coler,
- Abstract要約: 人間のコミュニケーションの共通する特徴であるサルカズムは、対人的相互作用と人間と機械的相互作用において課題を提起する。
近年の音声技術の進歩は、音声認識に音声データを活用することの重要性が増していることを強調している。
この体系的なレビューは、単調なアプローチからマルチモーダルなアプローチへの進化をグラフ化して、音声に基づく皮肉認識に焦点を当てた最初のものである。
- 参考スコア(独自算出の注目度): 9.844842556762067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sarcasm, a common feature of human communication, poses challenges in interpersonal interactions and human-machine interactions. Linguistic research has highlighted the importance of prosodic cues, such as variations in pitch, speaking rate, and intonation, in conveying sarcastic intent. Although previous work has focused on text-based sarcasm detection, the role of speech data in recognizing sarcasm has been underexplored. Recent advancements in speech technology emphasize the growing importance of leveraging speech data for automatic sarcasm recognition, which can enhance social interactions for individuals with neurodegenerative conditions and improve machine understanding of complex human language use, leading to more nuanced interactions. This systematic review is the first to focus on speech-based sarcasm recognition, charting the evolution from unimodal to multimodal approaches. It covers datasets, feature extraction, and classification methods, and aims to bridge gaps across diverse research domains. The findings include limitations in datasets for sarcasm recognition in speech, the evolution of feature extraction techniques from traditional acoustic features to deep learning-based representations, and the progression of classification methods from unimodal approaches to multimodal fusion techniques. In so doing, we identify the need for greater emphasis on cross-cultural and multilingual sarcasm recognition, as well as the importance of addressing sarcasm as a multimodal phenomenon, rather than a text-based challenge.
- Abstract(参考訳): 人間のコミュニケーションの共通する特徴であるサルカズムは、対人的相互作用と人間と機械的相互作用において課題を提起する。
言語学的研究は、シャーカティックな意図を伝える際に、ピッチ、発話速度、イントネーションなどの韻律的手がかりの重要性を強調している。
これまではテキストによるサルカズム検出に重点を置いてきたが、サルカズム認識における音声データの役割は過小評価されている。
近年の音声技術の進歩は、音声データを自動サルカズム認識に活用することの重要性の増大を強調しており、これは神経変性状態の個人に対する社会的相互作用を高め、複雑な人間の言語使用の機械的理解を改善し、よりニュアンスな相互作用をもたらす。
この体系的なレビューは、単調なアプローチからマルチモーダルなアプローチへの進化をグラフ化して、音声に基づく皮肉認識に焦点を当てた最初のものである。
データセット、特徴抽出、分類方法をカバーし、さまざまな研究領域間のギャップを埋めることを目的としている。
本研究は, 音声におけるサルカズム認識のためのデータセットの制限, 従来の音響特徴から深層学習に基づく表現への特徴抽出手法の進化, および非モーダルアプローチからマルチモーダル融合手法への分類手法の進歩を含む。
このようにして、異文化間および多言語間のサルカズム認識に重点を置くことの必要性と、テキストベースの課題ではなく、多モーダルな現象としてのサルカズムに対処することの重要性を明らかにする。
関連論文リスト
- Integrating Feedback Loss from Bi-modal Sarcasm Detector for Sarcastic Speech Synthesis [14.798970809585066]
サーカシック音声合成は、エンターテイメントや人間とコンピュータの相互作用のような応用における自然な相互作用を強化するために不可欠である。
本研究では,2モーダルサルカズム検出モデルからのフィードバック損失をTSトレーニングプロセスに統合する手法を提案する。
論文 参考訳(メタデータ) (2025-08-18T15:44:54Z) - Developmental Predictive Coding Model for Early Infancy Mono and Bilingual Vocal Continual Learning [69.8008228833895]
本稿では,連続学習機構を備えた小型生成ニューラルネットワークを提案する。
我々のモデルは解釈可能性を重視し,オンライン学習の利点を実証する。
論文 参考訳(メタデータ) (2024-12-23T10:23:47Z) - RCLMuFN: Relational Context Learning and Multiplex Fusion Network for Multimodal Sarcasm Detection [1.023096557577223]
マルチモーダルサルカズム検出のための関係文脈学習と多重化融合ネットワーク(RCLMuFN)を提案する。
まず,4つの特徴抽出器を用いて,原文や画像から特徴を包括的に抽出する。
次に,関係文脈学習モジュールを用いて,テキストや画像の文脈情報を学習する。
論文 参考訳(メタデータ) (2024-12-17T15:29:31Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue [63.32199372362483]
本稿では,SEntiment-enhanceD Graph を用いたマルチモーダルサルカズム記述フレームワーク EDGE を提案する。
特に,まずレキシコン誘導型発話感情推論モジュールを提案し,そこでは発話感情改善戦略を考案する。
次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
論文 参考訳(メタデータ) (2024-02-06T03:14:46Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity
Modeling with Knowledge Enhancement [31.97249246223621]
サルカスム(Sarcasm)は、文字通りの意味と暗示意図の相違を示す言語現象である。
既存の技術のほとんどは、テキスト入力と付随する画像の間の原子レベルの不整合をモデル化しただけだった。
本稿では,マルチヘッドのクロスアテンション機構に基づく原子レベルの合同性と,グラフニューラルネットワークに基づく合成レベルの合同性の両方を探索し,サルカズム検出のための新しい階層的枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-07T12:44:33Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism [7.194040730138362]
本研究では、モーダリティ間コントラストアテンションに基づくSarcasm Detection(ConAttSD)モデルを構築し、モーダリティ間コントラストアテンション機構を用いて発話のコントラスト特徴を抽出する。
ベンチマークマルチモーダルサルカズムデータセットであるMUStARDに関する実験により,提案したConAttSDモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-09-30T14:17:51Z) - Interpretable Multi-Head Self-Attention model for Sarcasm Detection in
social media [0.0]
sarcastic expressionの曖昧さは、sarcasmの発見を非常に困難にしている。
マルチヘッドセルフアテンションとゲートリカレントユニットを用いた解釈可能なディープラーニングモデルを開発する。
本稿では,複数のデータセットで最新の結果を得る手法の有効性を示す。
論文 参考訳(メタデータ) (2021-01-14T21:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。