論文の概要: Dual Modality-Aware Gated Prompt Tuning for Few-Shot Multimodal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2507.04468v1
- Date: Sun, 06 Jul 2025 17:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.198769
- Title: Dual Modality-Aware Gated Prompt Tuning for Few-Shot Multimodal Sarcasm Detection
- Title(参考訳): マルチモーダルサーカスム検出のためのデュアルモーダル・アウェア・ギャンプト・チューニング
- Authors: Soumyadeep Jana, Abhrajyoti Kundu, Sanasam Ranbir Singh,
- Abstract要約: 本稿では, DMDP (Deep Modality-Disentangled Prompt Tuning) を紹介した。
DMPは、テキストとビジュアルエンコーダに対して、ゲート付き、モダリティ固有のディーププロンプトを使用する。
レイヤ間でのプロンプト共有機構を導入し、低レベルと高レベルのセマンティックキューの両方をモデルに集約する。
- 参考スコア(独自算出の注目度): 1.515687944002438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread use of multimodal content on social media has heightened the need for effective sarcasm detection to improve opinion mining. However, existing models rely heavily on large annotated datasets, making them less suitable for real-world scenarios where labeled data is scarce. This motivates the need to explore the problem in a few-shot setting. To this end, we introduce DMDP (Deep Modality-Disentangled Prompt Tuning), a novel framework for few-shot multimodal sarcasm detection. Unlike prior methods that use shallow, unified prompts across modalities, DMDP employs gated, modality-specific deep prompts for text and visual encoders. These prompts are injected across multiple layers to enable hierarchical feature learning and better capture diverse sarcasm types. To enhance intra-modal learning, we incorporate a prompt-sharing mechanism across layers, allowing the model to aggregate both low-level and high-level semantic cues. Additionally, a cross-modal prompt alignment module enables nuanced interactions between image and text representations, improving the model's ability to detect subtle sarcastic intent. Experiments on two public datasets demonstrate DMDP's superior performance in both few-shot and extremely low-resource settings. Further cross-dataset evaluations show that DMDP generalizes well across domains, consistently outperforming baseline methods.
- Abstract(参考訳): ソーシャルメディアにおけるマルチモーダルコンテンツの普及により、意見マイニングを改善するために効果的な皮肉検出の必要性が高まっている。
しかし、既存のモデルは大きな注釈付きデータセットに大きく依存しているため、ラベル付きデータが不足している現実世界のシナリオには適さない。
これは、問題を数ショットで調べる必要性を動機付けている。
この目的のために, DMDP (Deep Modality-Disentangled Prompt Tuning) を導入した。
緩やかな統一的なプロンプトを使用する従来の方法とは異なり、DMDPはテキストやビジュアルエンコーダに対して、ゲート付き、モダリティ固有のディーププロンプトを使用する。
これらのプロンプトは複数の層にまたがって注入され、階層的な特徴学習を可能にし、多様なサルカムタイプをよりよくキャプチャする。
モーダル内学習を強化するために,階層間のプロンプト共有機構を導入し,低レベルおよび高レベルのセマンティックキューを集約する。
さらに、クロスモーダルなプロンプトアライメントモジュールは、画像とテキスト表現間のニュアンスな相互作用を可能にし、微妙なサーカスト的意図を検出するモデルの能力を向上させる。
2つの公開データセットの実験では、DMDPは、数ショットと極低リソースの両方で優れたパフォーマンスを示している。
さらに、DMDPはドメイン間でよく一般化し、ベースライン法を一貫して上回ることを示す。
関連論文リスト
- Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding [7.329728566839757]
ブロック認識型prompt Fusion (MoPE-BAF) を用いたMixture-of-prompt-Expertsを提案する。
MoPE-BAFは、統合視覚言語モデル(VLM)に基づく、新しいマルチモーダルソフトプロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-03-17T19:12:26Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Detecting and Grounding Multi-Modal Media Manipulation [32.34908534582532]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:20:40Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。