論文の概要: Learning in Order! A Sequential Strategy to Learn Invariant Features for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2409.04473v1
- Date: Thu, 5 Sep 2024 11:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 22:45:53.465506
- Title: Learning in Order! A Sequential Strategy to Learn Invariant Features for Multimodal Sentiment Analysis
- Title(参考訳): 順番に学習する!マルチモーダル感性分析のための不変特徴を学習するための逐次的戦略
- Authors: Xianbing Zhao, Lizhen Qu, Tao Feng, Jianfei Cai, Buzhou Tang,
- Abstract要約: 本研究は,マルチモーダル感情分析のために,ビデオやテキスト上でモデルをトレーニングするための,新しい,シンプルな逐次学習戦略を提案する。
そこで本研究では,単一ソースドメインと複数ソースドメインのいずれかでトレーニングされたマルチモーダルモデルを提案する。
- 参考スコア(独自算出の注目度): 38.653623266049905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes a novel and simple sequential learning strategy to train models on videos and texts for multimodal sentiment analysis. To estimate sentiment polarities on unseen out-of-distribution data, we introduce a multimodal model that is trained either in a single source domain or multiple source domains using our learning strategy. This strategy starts with learning domain invariant features from text, followed by learning sparse domain-agnostic features from videos, assisted by the selected features learned in text. Our experimental results demonstrate that our model achieves significantly better performance than the state-of-the-art approaches on average in both single-source and multi-source settings. Our feature selection procedure favors the features that are independent to each other and are strongly correlated with their polarity labels. To facilitate research on this topic, the source code of this work will be publicly available upon acceptance.
- Abstract(参考訳): 本研究は,マルチモーダル感情分析のために,ビデオやテキスト上でモデルをトレーニングするための,新しい,シンプルな逐次学習戦略を提案する。
そこで本研究では,学習戦略を用いて,単一ソースドメインと複数ソースドメインのいずれかでトレーニングされたマルチモーダルモデルを提案する。
この戦略は、テキストからドメイン不変機能を学び、その後、テキストで学んだ選択された機能によって支援されたビデオから疎いドメイン非依存機能を学ぶことから始まる。
実験の結果,本モデルでは,単一ソースと複数ソースの両方で,最先端の手法よりも性能が向上していることがわかった。
特徴選択手順は, 互いに独立して, 極性ラベルと強く相関する特徴を優先する。
このトピックについての研究を促進するため、この作業のソースコードは受理時に公開されます。
関連論文リスト
- Towards a Unified View of Preference Learning for Large Language Models: A Survey [88.66719962576005]
大きな言語モデル(LLM)は、非常に強力な能力を示す。
成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。
選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-09-04T15:11:55Z) - Bridging Domains with Approximately Shared Features [26.096779584142986]
マルチソースドメイン適応は、未知のドメインに機械学習モデルを適用する際のパフォーマンス劣化を低減することを目的としている。
ソースドメインから不変の機能を学ぶことを支持する者もいれば、より多様な機能を好む者もいる。
本稿では,それらの相関関係のばらつきに基づいて特徴の効用を識別し,ドメイン間で$y$のラベルを付ける統計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T04:25:41Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Shared and Private Information Learning in Multimodal Sentiment Analysis with Deep Modal Alignment and Self-supervised Multi-Task Learning [8.868945335907867]
本稿では、モーダル間の共有情報を取得するための深いモーダル共有情報学習モジュールを提案する。
また、自己教師付き学習戦略に基づくラベル生成モジュールを使用して、モダリティのプライベート情報をキャプチャする。
当社のアプローチは,3つの公開データセットの指標のほとんどにおいて,最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-15T09:24:48Z) - Transfer Learning with Joint Fine-Tuning for Multimodal Sentiment
Analysis [0.6091702876917281]
感情分析にジョイントファインチューニングを用いたトランスファーラーニング手法を提案する。
本提案では,テキストと画像の事前学習モデルを共同調整段階に組み込む際の柔軟性について述べる。
論文 参考訳(メタデータ) (2022-10-11T21:16:14Z) - CLMLF:A Contrastive Learning and Multi-Layer Fusion Method for
Multimodal Sentiment Detection [24.243349217940274]
マルチモーダル感情検出のためのコントラスト学習・多層融合法(CLMLF)を提案する。
具体的には、まずテキストと画像をエンコードして隠れ表現を取得し、次に多層融合モジュールを使用してテキストと画像のトークンレベルの特徴を整列し、融合する。
また、感情分析タスクに加えて、ラベルベースコントラスト学習とデータベースコントラスト学習という2つのコントラスト学習タスクを設計した。
論文 参考訳(メタデータ) (2022-04-12T04:03:06Z) - Meta Navigator: Search for a Good Adaptation Policy for Few-shot
Learning [113.05118113697111]
少ないショット学習は、ラベル付きデータしか持たない新しいタスクに、以前のタスクから学んだ知識を適応させることを目的としている。
少数ショット学習に関する研究文献は、大きな多様性を示し、異なるアルゴリズムは、しばしば異なる少数ショット学習シナリオで優れている。
本稿では,メタナビゲータ(Meta Navigator)について紹介する。
論文 参考訳(メタデータ) (2021-09-13T07:20:01Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Learning to Combine: Knowledge Aggregation for Multi-Source Domain
Adaptation [56.694330303488435]
マルチソースドメイン適応(LtC-MSDA)フレームワークを併用する学習法を提案する。
簡単に言うと、知識グラフは様々なドメインのプロトタイプ上に構築され、セマンティックに隣接した表現間の情報伝達を実現する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-07-17T07:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。