論文の概要: Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts
- arxiv url: http://arxiv.org/abs/2211.06607v2
- Date: Tue, 1 Aug 2023 07:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 18:19:18.793703
- Title: Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts
- Title(参考訳): マルチモーダル確率的融合プロンプトに基づく少数ショットマルチモーダル感情分析
- Authors: Xiaocui Yang, Shi Feng, Daling Wang, Pengfei Hong, Soujanya Poria
- Abstract要約: ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
- 参考スコア(独自算出の注目度): 30.15646658460899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis has gained significant attention due to the
proliferation of multimodal content on social media. However, existing studies
in this area rely heavily on large-scale supervised data, which is
time-consuming and labor-intensive to collect. Thus, there is a need to address
the challenge of few-shot multimodal sentiment analysis. To tackle this
problem, we propose a novel method called Multimodal Probabilistic Fusion
Prompts (MultiPoint) that leverages diverse cues from different modalities for
multimodal sentiment detection in the few-shot scenario. Specifically, we start
by introducing a Consistently Distributed Sampling approach called CDS, which
ensures that the few-shot dataset has the same category distribution as the
full dataset. Unlike previous approaches primarily using prompts based on the
text modality, we design unified multimodal prompts to reduce discrepancies
between different modalities and dynamically incorporate multimodal
demonstrations into the context of each multimodal instance. To enhance the
model's robustness, we introduce a probabilistic fusion method to fuse output
predictions from multiple diverse prompts for each input. Our extensive
experiments on six datasets demonstrate the effectiveness of our approach.
First, our method outperforms strong baselines in the multimodal few-shot
setting. Furthermore, under the same amount of data (1% of the full dataset),
our CDS-based experimental results significantly outperform those based on
previously sampled datasets constructed from the same number of instances of
each class.
- Abstract(参考訳): ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
しかし、この分野の既存の研究は、収集に要する時間と労力のかかる大規模監視データに大きく依存している。
したがって、少数ショットのマルチモーダル感情分析の課題に対処する必要がある。
そこで本研究では,多モード確率的融合プロンプト(multipoint)と呼ばれる手法を提案する。
具体的には、cdsと呼ばれる、一貫性のある分散サンプリングアプローチの導入から始めます。これにより、マイナショットデータセットが、フルデータセットと同じカテゴリの分布を持つことが保証されます。
テキストモダリティに基づいたプロンプトを主に使用する従来のアプローチとは異なり、異なるモダリティ間の不一致を減らすために統一されたマルチモーダルプロンプトを設計し、各マルチモーダルインスタンスのコンテキストに動的にマルチモーダルデモを組み込む。
モデルのロバスト性を高めるために,複数の多種多様なプロンプトから出力予測を融合する確率的融合法を提案する。
6つのデータセットに関する広範な実験は、我々のアプローチの有効性を示しています。
まず,マルチモーダル・ショット・セッティングにおいて,強いベースラインを向上する手法を提案する。
さらに、同じ量のデータ(全データセットの1%)の下で、我々のCDSベースの実験結果は、各クラスの同じ数のインスタンスから構築されたサンプルデータセットに基づいて、大幅に性能が向上した。
関連論文リスト
- U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - UniS-MMC: Multimodal Classification via Unimodality-supervised
Multimodal Contrastive Learning [29.237813880311943]
本稿では, より信頼性の高いマルチモーダル表現を, 非モーダル予測の弱い監督下で探索する新しいマルチモーダルコントラスト法を提案する。
2つの画像テキスト分類ベンチマークにおける融合特徴を用いた実験結果から,提案手法が現在最先端のマルチモーダル手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T09:18:38Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。