論文の概要: TriSPrompt: A Hierarchical Soft Prompt Model for Multimodal Rumor Detection with Incomplete Modalities
- arxiv url: http://arxiv.org/abs/2509.19352v1
- Date: Thu, 18 Sep 2025 02:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.503843
- Title: TriSPrompt: A Hierarchical Soft Prompt Model for Multimodal Rumor Detection with Incomplete Modalities
- Title(参考訳): TriSprompt:不完全モードによるマルチモーダル騒音検出のための階層型ソフトプロンプトモデル
- Authors: Jiajun Chen, Yangyang Wu, Xiaoye Miao, Mengying Zhu, Meng Xi,
- Abstract要約: 提案する階層型ソフトプロンプトモデルtextsfTriSPromptは,3種類のプロンプト,すなわち,emphmodality-aware(MA)プロンプト,emphmodality-missing(MM)プロンプト,emphmutual-views(MV)プロンプトを統合する。
textsfTriSPromptは最先端の手法に比べて精度が13%以上向上している。
- 参考スコア(独自算出の注目度): 19.93760428537927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread presence of incomplete modalities in multimodal data poses a significant challenge to achieving accurate rumor detection. Existing multimodal rumor detection methods primarily focus on learning joint modality representations from \emph{complete} multimodal training data, rendering them ineffective in addressing the common occurrence of \emph{missing modalities} in real-world scenarios. In this paper, we propose a hierarchical soft prompt model \textsf{TriSPrompt}, which integrates three types of prompts, \textit{i.e.}, \emph{modality-aware} (MA) prompt, \emph{modality-missing} (MM) prompt, and \emph{mutual-views} (MV) prompt, to effectively detect rumors in incomplete multimodal data. The MA prompt captures both heterogeneous information from specific modalities and homogeneous features from available data, aiding in modality recovery. The MM prompt models missing states in incomplete data, enhancing the model's adaptability to missing information. The MV prompt learns relationships between subjective (\textit{i.e.}, text and image) and objective (\textit{i.e.}, comments) perspectives, effectively detecting rumors. Extensive experiments on three real-world benchmarks demonstrate that \textsf{TriSPrompt} achieves an accuracy gain of over 13\% compared to state-of-the-art methods. The codes and datasets are available at https: //anonymous.4open.science/r/code-3E88.
- Abstract(参考訳): マルチモーダルデータに不完全なモダリティが広く存在することは、正確なうわさ検出を実現する上で大きな課題となる。
既存のマルチモーダルなうわさ検出手法は主に,実世界のシナリオにおける「emph{missing modalities」の共通発生に対処するために,「emph{complete}」マルチモーダルトレーニングデータから共同モーダル表現を学習することに焦点を当てている。
本稿では,3種類のプロンプトを統合した階層型ソフトプロンプトモデル, \textit{i.e.}, \emph{modality-aware} (MA)プロンプト, \emph{modality-missing} (MM)プロンプト, \emph{mutual-views} (MV)プロンプトを提案する。
MAプロンプトは、特定のモダリティから異質情報と利用可能なデータから同質情報の両方をキャプチャし、モダリティ回復を支援する。
MMは不完全データの欠落状態をモデルに促し、欠落した情報へのモデルの適応性を高める。
MVは主観的(テキストと画像)と客観的(コメント)の視点の関係を学習し、効果的に噂を検出する。
実世界の3つのベンチマークの大規模な実験は、最先端の手法と比較して、 \textsf{TriSPrompt} の精度が 13 % 以上向上することを示した。
コードとデータセットはhttps: //anonymous.4open.science/r/code-3E88で公開されている。
関連論文リスト
- I$^3$-MRec: Invariant Learning with Information Bottleneck for Incomplete Modality Recommendation [42.37107069331169]
textbfIncomplete textbfModality textbfRecommendationのボトルネック原理で学習する textbfI$3$-MRec を紹介する。
I$3$-MRecは、(i)クロスモーダルな選好不変性、(ii)コンパクトで効果的なマルチモーダル表現の2つの重要な性質を強制する。
I$3$-MRec は、様々なモダリティを欠くシナリオで既存の最先端の MRS メソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-06T09:29:50Z) - Retrieval-Augmented Dynamic Prompt Tuning for Incomplete Multimodal Learning [27.867369806400834]
本稿では,Retrieval-AuGmented Dynamic Prompt TuningフレームワークであるRAGPTを提案する。
RAGPTは、(I)マルチチャネルレトリバー、(II)モダリティ生成器、(III)コンテキスト認識プロンプトの3つのモジュールから構成される。
3つの実世界のデータセットで実施された実験によると、RAGPTは不完全なモダリティ問題に対処する際の全ての競争ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-02T07:39:48Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Cross-Modal Augmentation for Few-Shot Multimodal Fake News Detection [0.21990652930491858]
フェイクニュースを早期に検出するためには、ほとんどショットラーニングが重要である。
本稿では,一様特徴を用いたマルチモーダル特徴を付加したマルチモーダルフェイクニュース検出モデルを提案する。
提案したCMAは3つのベンチマークデータセット上でSOTA結果を達成する。
論文 参考訳(メタデータ) (2024-07-16T09:32:11Z) - Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - Fourier Prompt Tuning for Modality-Incomplete Scene Segmentation [37.06795681738417]
Modality-Incomplete Scene (MISS)は、システムレベルのモダリティ不在とセンサーレベルのモダリティエラーの両方を含むタスクである。
我々は,MMS(Missing-Aware Modal Switch)戦略を導入し,トレーニング中に欠落したモダリティを積極的に管理する。
従来のパラメータ効率向上手法よりも5.84%mIoUが改良され,モダリティの欠如が認められた。
論文 参考訳(メタデータ) (2024-01-30T11:46:27Z) - Inconsistent Matters: A Knowledge-guided Dual-consistency Network for
Multi-modal Rumor Detection [53.48346699224921]
マルチメディアコンテンツによる噂を検出するために,知識誘導型二元整合ネットワークを提案する。
2つの一貫性検出ツールを使用して、クロスモーダルレベルとコンテント知識レベルの不整合を同時にキャプチャする。
また、異なる視覚的モダリティ条件下で頑健なマルチモーダル表現学習を可能にする。
論文 参考訳(メタデータ) (2023-06-03T15:32:20Z) - Diversity-Aware Meta Visual Prompting [111.75306320834629]
DAM-VP(Diversity-Aware Meta Visual Prompting)は、学習済みのモデルを凍結したバックボーンで下流のタスクに転送する効率的なプロンプト手法である。
下流のデータセットを、多様性に富んだ方法で小さなサブセットにクラスタ化し、それぞれのサブセットがそれぞれ独自のプロンプトを持っている。
すべてのプロンプトはメタプロンプトで最適化され、複数のデータセットで学習される。
論文 参考訳(メタデータ) (2023-03-14T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。