論文の概要: Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts
- arxiv url: http://arxiv.org/abs/2211.06607v1
- Date: Sat, 12 Nov 2022 08:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 18:50:10.725998
- Title: Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts
- Title(参考訳): マルチモーダル確率的融合プロンプトに基づく少数ショットマルチモーダル感情分析
- Authors: Xiaocui Yang, Shi Feng, Daling Wang, Pengfei Hong, Soujanya Poria
- Abstract要約: マルチモーダルな感情検出のための多様な手がかりを提供するマルチモーダル確率核融合プロンプトを提案する。
モデルのロバスト性を改善するために,各入力に対して多種多様なプロンプトを利用し,出力予測を融合させる確率的手法を提案する。
- 参考スコア(独自算出の注目度): 30.15646658460899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis is a trending topic with the explosion of
multimodal content on the web. Present studies in multimodal sentiment analysis
rely on large-scale supervised data. Collating supervised data is
time-consuming and labor-intensive. As such, it is essential to investigate the
problem of few-shot multimodal sentiment analysis. Previous works in few-shot
models generally use language model prompts, which can improve performance in
low-resource settings. However, the textual prompt ignores the information from
other modalities. We propose Multimodal Probabilistic Fusion Prompts, which can
provide diverse cues for multimodal sentiment detection. We first design a
unified multimodal prompt to reduce the discrepancy in different modal prompts.
To improve the robustness of our model, we then leverage multiple diverse
prompts for each input and propose a probabilistic method to fuse the output
predictions. Extensive experiments conducted on three datasets confirm the
effectiveness of our approach.
- Abstract(参考訳): マルチモーダル感情分析(multimodal sentiment analysis)は、web上のマルチモーダルコンテンツの爆発を伴うトレンドトピックである。
マルチモーダル感情分析の現在の研究は、大規模教師付きデータに依存している。
監督されたデータの照合は時間がかかり、労働集約的です。
そのため, 数発マルチモーダル感情分析の問題点を検討することが不可欠である。
従来の数ショットモデルでは、一般的に言語モデルプロンプトを使用しており、低リソース設定のパフォーマンスを改善することができる。
しかし、テキストプロンプトは他のモダリティからの情報を無視する。
マルチモーダルな感情検出のための多様な手がかりを提供するマルチモーダル確率核融合プロンプトを提案する。
まず、異なるモーダルプロンプトの差を低減するために、統一マルチモーダルプロンプトを設計する。
モデルのロバスト性を改善するために,入力毎に多種多様なプロンプトを活用し,出力予測を融合する確率的手法を提案する。
3つのデータセットで広範な実験を行い,本手法の有効性を確認した。
関連論文リスト
- U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - UniS-MMC: Multimodal Classification via Unimodality-supervised
Multimodal Contrastive Learning [29.237813880311943]
本稿では, より信頼性の高いマルチモーダル表現を, 非モーダル予測の弱い監督下で探索する新しいマルチモーダルコントラスト法を提案する。
2つの画像テキスト分類ベンチマークにおける融合特徴を用いた実験結果から,提案手法が現在最先端のマルチモーダル手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T09:18:38Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。