論文の概要: DaQ-MSA: Denoising and Qualifying Diffusion Augmentations for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2601.06870v1
- Date: Sun, 11 Jan 2026 11:29:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.041437
- Title: DaQ-MSA: Denoising and Qualifying Diffusion Augmentations for Multimodal Sentiment Analysis
- Title(参考訳): DaQ-MSA:マルチモーダル感性分析のための拡散拡大と定量化
- Authors: Jiazhang Liang, Jianheng Dai, Miaosen Luo, Menghua Jiang, Sijie Mai,
- Abstract要約: マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクにおいて高い性能を示した。
しかし、それらのマルチモーダル感情分析の有効性は、高品質なトレーニングデータの不足によって制限されている。
本稿では,サンプルの信頼性を評価し,適応的なトレーニング重みを割り当てるための品質評価モジュールを提案する。
- 参考スコア(独自算出の注目度): 5.214131153441384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have demonstrated strong performance on vision-language tasks, yet their effectiveness on multimodal sentiment analysis remains constrained by the scarcity of high-quality training data, which limits accurate multimodal understanding and generalization. To alleviate this bottleneck, we leverage diffusion models to perform semantics-preserving augmentation on the video and audio modalities, expanding the multimodal training distribution. However, increasing data quantity alone is insufficient, as diffusion-generated samples exhibit substantial quality variation and noisy augmentations may degrade performance. We therefore propose DaQ-MSA (Denoising and Qualifying Diffusion Augmentations for Multimodal Sentiment Analysis), which introduces a quality scoring module to evaluate the reliability of augmented samples and assign adaptive training weights. By down-weighting low-quality samples and emphasizing high-fidelity ones, DaQ-MSA enables more stable learning. By integrating the generative capability of diffusion models with the semantic understanding of MLLMs, our approach provides a robust and generalizable automated augmentation strategy for training MLLMs without any human annotation or additional supervision.
- Abstract(参考訳): マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクにおいて高い性能を示してきたが, 高精度なマルチモーダル理解と一般化を制限した高品質なトレーニングデータの不足により, マルチモーダル感情分析の有効性は依然として制限されている。
このボトルネックを緩和するために、拡散モデルを活用して、ビデオとオーディオのモダリティにセマンティクスを保存し、マルチモーダルなトレーニング分布を拡大する。
しかし,データ量の増加だけでは不十分であり,拡散生成試料は相当な品質変化を示し,ノイズ増大により性能が低下する可能性がある。
そこで我々は,DAQ-MSA (Denoising and Qualifying Diffusion Augmentations for Multimodal Sentiment Analysis)を提案する。
低品質のサンプルを減らし、高忠実なサンプルを強調することで、DaQ-MSAはより安定した学習を可能にします。
拡散モデルの生成能力をMLLMの意味的理解と統合することにより、人間のアノテーションや追加の監督なしにMLLMをトレーニングするための堅牢で一般化可能な自動拡張戦略を提供する。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Towards Robust Multimodal Sentiment Analysis with Incomplete Data [20.75292807497547]
頑健なマルチモーダル感性分析(MSA)を実現するための言語支配型耐雑音学習ネットワーク(LNLN)を提案する。
LNLNは、支配的モダリティ補正(DMC)モジュールと支配的モダリティベースマルチモーダル学習(DMML)モジュールを備え、様々なノイズシナリオにおけるモデルの堅牢性を高める。
論文 参考訳(メタデータ) (2024-09-30T07:14:31Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。
また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。
以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-22T23:32:42Z) - Learning Language-guided Adaptive Hyper-modality Representation for
Multimodal Sentiment Analysis [22.012103941836838]
適応型言語誘導型マルチモーダルトランス(ALMT)を提案する。
ALMTにはAdaptive Hyper-modality Learning (AHL)モジュールが組み込まれており、無関係/複雑圧縮表現を学習する。
ALMTは、いくつかの一般的なデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-09T15:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。