Fugu-MT 論文翻訳(概要): Syntax-aware Hybrid prompt model for Few-shot multi-modal sentiment analysis

論文の概要: Syntax-aware Hybrid prompt model for Few-shot multi-modal sentiment analysis

arxiv url: http://arxiv.org/abs/2306.01312v2
Date: Mon, 31 Jul 2023 09:03:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 20:53:08.259823
Title: Syntax-aware Hybrid prompt model for Few-shot multi-modal sentiment analysis
Title（参考訳）: ファウショットマルチモーダル感情分析のための構文対応ハイブリッドプロンプトモデル
Authors: Zikai Zhou, Haisong Feng, Baiyou Qiao, Gang Wu, Donghong Han
Abstract要約: マルチモーダル・センティメント・アナリティクス(MSA)は近年,自然言語処理における話題となっている。クロスモダリティにおける数発の感情分析手法を検討することは現実的である。
参考スコア（独自算出の注目度）: 0.7693465097015469
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Sentiment Analysis (MSA) has been a popular topic in natural language processing nowadays, at both sentence and aspect level. However, the existing approaches almost require large-size labeled datasets, which bring about large consumption of time and resources. Therefore, it is practical to explore the method for few-shot sentiment analysis in cross-modalities. Previous works generally execute on textual modality, using the prompt-based methods, mainly two types: hand-crafted prompts and learnable prompts. The existing approach in few-shot multi-modality sentiment analysis task has utilized both methods, separately. We further design a hybrid pattern that can combine one or more fixed hand-crafted prompts and learnable prompts and utilize the attention mechanisms to optimize the prompt encoder. The experiments on both sentence-level and aspect-level datasets prove that we get a significant outperformance.
Abstract（参考訳）: マルチモーダル・センティメント・アナリティクス(MSA)は,近年,文・アスペクトレベルでの自然言語処理において,一般的な話題となっている。しかし、既存のアプローチは、ほとんど大きなラベル付きデータセットを必要とするため、時間とリソースを大量に消費する。したがって,クロスモダリティにおける少数ショット感情分析の手法を検討することは現実的である。従来の作品では、主に手作りのプロンプトと学習可能なプロンプトという2つのタイプのプロンプトベースメソッドを使用して、テキストによるモダリティを実行している。マルチモーダリティ感情分析タスクにおける既存のアプローチは、どちらの方法も別々に活用している。さらに,1つ以上の固定された手作りプロンプトと学習可能なプロンプトを組み合わせたハイブリッドパターンを設計し,注意機構を利用してプロンプトエンコーダを最適化する。文レベルのデータセットとアスペクトレベルのデータセットの両方の実験により、大きなパフォーマンス向上が証明された。

関連論文リスト

Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering [42.468210353582755]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。 MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文参考訳（メタデータ） (2025-05-22T09:52:57Z)
Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [35.686125031177234]
MDS(Multi-Document Summarization)は,複数の文書から有用な情報を抽出・合成することに焦点を当てた課題である。本稿では,このタスクに推論時間スケーリングを利用する新しいフレームワークを提案する。また,新しい評価指標として Consistency-Aware Preference (CAP) スコアと LLM Atom-Content-Unit (ACU) スコアがある。
論文参考訳（メタデータ） (2025-02-27T23:34:47Z)
Adaptive Prompting: Ad-hoc Prompt Composition for Social Bias Detection [30.836788377666]
本稿では,与えられた入力に対する最適プロンプト合成アドホックを予測する適応的プロンプト手法を提案する。我々は,意味的理解を必要とする文脈に依存した社会的偏見検出にアプローチを適用した。我々の手法は高い検出性能を確実に保証し、いくつかの設定で最善である。
論文参考訳（メタデータ） (2025-02-10T14:06:19Z)
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文参考訳（メタデータ） (2024-12-14T06:24:55Z)
AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection [0.1499944454332829]
本稿では,Emotion-textbfAware textbfMultimodal Fusion textbfPrompt textbfLtextbfEarning (textbfAMPLE) フレームワークについて述べる。このフレームワークは感情分析ツールを利用してテキストから感情要素を抽出する。次に、マルチヘッドクロスアテンション(MCA)機構と類似性を考慮した融合手法を用いて、マルチモーダルデータを統合する。
論文参考訳（メタデータ） (2024-10-21T02:19:24Z)
GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文参考訳（メタデータ） (2024-10-20T03:45:50Z)
PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文参考訳（メタデータ） (2024-08-18T13:51:01Z)
Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文参考訳（メタデータ） (2024-07-07T13:55:56Z)
Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding [7.329728566839757]
ブロック認識型prompt Fusion (MoPE-BAF) を用いたMixture-of-prompt-Expertsを提案する。 MoPE-BAFは、統合視覚言語モデル(VLM)に基づく、新しいマルチモーダルソフトプロンプトフレームワークである。
論文参考訳（メタデータ） (2024-03-17T19:12:26Z)
Bridging Research and Readers: A Multi-Modal Automated Academic Papers Interpretation System [47.13932723910289]
本稿では,3段階のプロセス段階を有するオープンソースマルチモーダル自動学術論文解釈システム(MMAPIS)を紹介する。ドキュメントからプレーンテキストや表や図を別々に抽出するために、ハイブリッドなモダリティ前処理とアライメントモジュールを使用している。すると、この情報は彼らが属するセクション名に基づいて調整され、同じセクション名を持つデータが同じセクションの下に分類される。抽出されたセクション名を用いて、記事を短いテキストセグメントに分割し、LSMを通してセクション内とセクション間の特定の要約を容易にする。
論文参考訳（メタデータ） (2024-01-17T11:50:53Z)
UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文参考訳（メタデータ） (2023-08-19T17:32:34Z)
Multi-Prompt with Depth Partitioned Cross-Modal Learning [25.239388488952375]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文参考訳（メタデータ） (2023-05-10T14:54:29Z)
Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。 PTUnifier という2つのタイプを統一する手法を提案する。まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文参考訳（メタデータ） (2023-02-17T15:43:42Z)
Multi-Modal Few-Shot Object Detection with Meta-Learning-Based Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文参考訳（メタデータ） (2022-04-16T16:45:06Z)
Metaphor Detection using Deep Contextualized Word Embeddings [0.0]
本稿では, 単語埋め込み, 双方向LSTM, マルチヘッドアテンション機構からなるエンドツーエンド手法を提案する。本手法では,フレーズの比喩性を検出するために,入力特徴として生のテキストシーケンスのみを必要とする。
論文参考訳（メタデータ） (2020-09-26T11:00:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。