論文の概要: Syntax-aware Hybrid prompt model for Few-shot multi-modal sentiment
analysis
- arxiv url: http://arxiv.org/abs/2306.01312v2
- Date: Mon, 31 Jul 2023 09:03:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 20:53:08.259823
- Title: Syntax-aware Hybrid prompt model for Few-shot multi-modal sentiment
analysis
- Title(参考訳): ファウショットマルチモーダル感情分析のための構文対応ハイブリッドプロンプトモデル
- Authors: Zikai Zhou, Haisong Feng, Baiyou Qiao, Gang Wu, Donghong Han
- Abstract要約: マルチモーダル・センティメント・アナリティクス(MSA)は近年,自然言語処理における話題となっている。
クロスモダリティにおける数発の感情分析手法を検討することは現実的である。
- 参考スコア(独自算出の注目度): 0.7693465097015469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Sentiment Analysis (MSA) has been a popular topic in natural
language processing nowadays, at both sentence and aspect level. However, the
existing approaches almost require large-size labeled datasets, which bring
about large consumption of time and resources. Therefore, it is practical to
explore the method for few-shot sentiment analysis in cross-modalities.
Previous works generally execute on textual modality, using the prompt-based
methods, mainly two types: hand-crafted prompts and learnable prompts. The
existing approach in few-shot multi-modality sentiment analysis task has
utilized both methods, separately. We further design a hybrid pattern that can
combine one or more fixed hand-crafted prompts and learnable prompts and
utilize the attention mechanisms to optimize the prompt encoder. The
experiments on both sentence-level and aspect-level datasets prove that we get
a significant outperformance.
- Abstract(参考訳): マルチモーダル・センティメント・アナリティクス(MSA)は,近年,文・アスペクトレベルでの自然言語処理において,一般的な話題となっている。
しかし、既存のアプローチは、ほとんど大きなラベル付きデータセットを必要とするため、時間とリソースを大量に消費する。
したがって,クロスモダリティにおける少数ショット感情分析の手法を検討することは現実的である。
従来の作品では、主に手作りのプロンプトと学習可能なプロンプトという2つのタイプのプロンプトベースメソッドを使用して、テキストによるモダリティを実行している。
マルチモーダリティ感情分析タスクにおける既存のアプローチは、どちらの方法も別々に活用している。
さらに,1つ以上の固定された手作りプロンプトと学習可能なプロンプトを組み合わせたハイブリッドパターンを設計し,注意機構を利用してプロンプトエンコーダを最適化する。
文レベルのデータセットとアスペクトレベルのデータセットの両方の実験により、大きなパフォーマンス向上が証明された。
関連論文リスト
- AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection [0.1499944454332829]
本稿では,Emotion-textbfAware textbfMultimodal Fusion textbfPrompt textbfLtextbfEarning (textbfAMPLE) フレームワークについて述べる。
このフレームワークは感情分析ツールを利用してテキストから感情要素を抽出する。
次に、マルチヘッドクロスアテンション(MCA)機構と類似性を考慮した融合手法を用いて、マルチモーダルデータを統合する。
論文 参考訳(メタデータ) (2024-10-21T02:19:24Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding [7.329728566839757]
ブロック認識型prompt Fusion (MoPE-BAF) を用いたMixture-of-prompt-Expertsを提案する。
MoPE-BAFは、統合視覚言語モデル(VLM)に基づく、新しいマルチモーダルソフトプロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-03-17T19:12:26Z) - Bridging Research and Readers: A Multi-Modal Automated Academic Papers
Interpretation System [47.13932723910289]
本稿では,3段階のプロセス段階を有するオープンソースマルチモーダル自動学術論文解釈システム(MMAPIS)を紹介する。
ドキュメントからプレーンテキストや表や図を別々に抽出するために、ハイブリッドなモダリティ前処理とアライメントモジュールを使用している。
すると、この情報は彼らが属するセクション名に基づいて調整され、同じセクション名を持つデータが同じセクションの下に分類される。
抽出されたセクション名を用いて、記事を短いテキストセグメントに分割し、LSMを通してセクション内とセクション間の特定の要約を容易にする。
論文 参考訳(メタデータ) (2024-01-17T11:50:53Z) - UniDoc: A Universal Large Multimodal Model for Simultaneous Text
Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。
我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2023-08-19T17:32:34Z) - Multi-Prompt with Depth Partitioned Cross-Modal Learning [25.239388488952375]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。
本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。
我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-10T14:54:29Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Metaphor Detection using Deep Contextualized Word Embeddings [0.0]
本稿では, 単語埋め込み, 双方向LSTM, マルチヘッドアテンション機構からなるエンドツーエンド手法を提案する。
本手法では,フレーズの比喩性を検出するために,入力特徴として生のテキストシーケンスのみを必要とする。
論文 参考訳(メタデータ) (2020-09-26T11:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。