論文の概要: Meta-Learn Unimodal Signals with Weak Supervision for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2408.16029v2
- Date: Fri, 13 Sep 2024 02:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 22:28:05.658832
- Title: Meta-Learn Unimodal Signals with Weak Supervision for Multimodal Sentiment Analysis
- Title(参考訳): マルチモーダル感性解析のための弱スーパービジョンを用いたメタラーン一様信号
- Authors: Sijie Mai, Yu Zhao, Ying Zeng, Jianhua Yao, Haifeng Hu,
- Abstract要約: 上記の問題に対処する新しいメタユニラベル生成(MUG)フレームワークを提案する。
まず,一様表現と多様表現のギャップを埋めるために,コントラッシブ・ベース・プロジェクション・モジュールを設計する。
次に,両レベル最適化戦略を用いて,MUCNを明示的な監督で訓練するための一助多モーダル・マルチモーダル・Denoisingタスクを提案する。
- 参考スコア(独自算出の注目度): 25.66434557076494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis aims to effectively integrate information from various sources to infer sentiment, where in many cases there are no annotations for unimodal labels. Therefore, most works rely on multimodal labels for training. However, there exists the noisy label problem for the learning of unimodal signals as multimodal annotations are not always the ideal substitutes for the unimodal ones, failing to achieve finer optimization for individual modalities. In this paper, we explore the learning of unimodal labels under the weak supervision from the annotated multimodal labels. Specifically, we propose a novel meta uni-label generation (MUG) framework to address the above problem, which leverages the available multimodal labels to learn the corresponding unimodal labels by the meta uni-label correction network (MUCN). We first design a contrastive-based projection module to bridge the gap between unimodal and multimodal representations, so as to use multimodal annotations to guide the learning of MUCN. Afterwards, we propose unimodal and multimodal denoising tasks to train MUCN with explicit supervision via a bi-level optimization strategy. We then jointly train unimodal and multimodal learning tasks to extract discriminative unimodal features for multimodal inference. Experimental results suggest that MUG outperforms competitive baselines and can learn accurate unimodal labels.
- Abstract(参考訳): マルチモーダル感情分析は、様々なソースからの情報を効果的に統合し、感情を推測することを目的としている。
したがって、ほとんどの作品はトレーニングのためにマルチモーダルラベルに依存している。
しかし、マルチモーダルアノテーションが必ずしも単モーダルアノテーションの理想的な代用であるとは限らないため、単モーダル信号の学習にはノイズラベルの問題が存在する。
本稿では,注釈付きマルチモーダルラベルの弱監督下での一助音ラベルの学習について検討する。
具体的には、上記の問題に対処する新しいメタユニラベル生成(MUG)フレームワークを提案し、利用可能なマルチモーダルラベルを活用して、メタユニラベル補正ネットワーク(MUCN)により対応するユニモーダルラベルを学習する。
まず,MUCNの学習を指導するためにマルチモーダルアノテーションを使用するために,非モーダル表現とマルチモーダル表現のギャップを埋めるために,コントラッシブ・ベース・プロジェクション・モジュールを設計する。
その後,両レベルの最適化戦略を通じて,MUCNを明示的な監督で訓練するための一様・多モードのデノベーションタスクを提案する。
次に,多モーダル推論のための識別的一モーダル特徴を抽出するために,単モーダルおよび多モーダル学習タスクを共同で訓練する。
実験結果から,MUGは競争ベースラインより優れ,精度の高い単調ラベルを学習できることが示唆された。
関連論文リスト
- Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance [10.580712937465032]
従来無視されていた多モーダル学習目標と単モーダル学習目標との勾配の衝突を同定する。
MMParetoアルゴリズムを提案することで、学習目的に共通する方向の最終的な勾配を確保することができる。
また,タスクの難易度に明確な相違点のあるマルチタスクケースも容易に行えることが期待されている。
論文 参考訳(メタデータ) (2024-05-28T01:19:13Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - Tailor Versatile Multi-modal Learning for Multi-label Emotion
Recognition [7.280460748655983]
マルチモーダルマルチラベル感情認識(MMER)は、異種視覚、音声、テキストのモダリティから様々な人間の感情を識別することを目的としている。
従来の手法は主に、複数のモダリティを共通の潜在空間に投影し、すべてのラベルに対して同じ表現を学ぶことに焦点を当てていた。
マルチモーダル表現を改良し,各ラベルの識別能力を高めることを目的とした,マルチモーダル音声認識(TAILOR)のための多目的マルチモーダル学習を提案する。
論文 参考訳(メタデータ) (2022-01-15T12:02:28Z) - Semi-Supervised Multi-Modal Multi-Instance Multi-Label Deep Network with
Optimal Transport [24.930976128926314]
M3DN (Multi-modal Multi-instance Multi-label Deep Network) を提案する。
M3DNは、M3学習をエンドツーエンドのマルチモーダルディープネットワークで考慮し、異なるモーダルバッグレベルの予測間で一貫性の原則を利用します。
これにより、M3DNSはラベルを予測し、ラベル相関を同時に活用できる。
論文 参考訳(メタデータ) (2021-04-17T09:18:28Z) - Multimodal Knowledge Expansion [14.332957885505547]
ラベルを必要とせずにマルチモーダルデータを利用する知識蒸留に基づくフレームワークを提案する。
我々は、マルチモーダルな学生モデルが一貫して疑似ラベルを否定し、教師よりも優れた一般化を示す。
論文 参考訳(メタデータ) (2021-03-26T12:32:07Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。