論文の概要: Transfer Learning with Joint Fine-Tuning for Multimodal Sentiment
Analysis
- arxiv url: http://arxiv.org/abs/2210.05790v1
- Date: Tue, 11 Oct 2022 21:16:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:05:39.804609
- Title: Transfer Learning with Joint Fine-Tuning for Multimodal Sentiment
Analysis
- Title(参考訳): マルチモーダル感性解析のための関節ファインチューニングによる伝達学習
- Authors: Guilherme Louren\c{c}o de Toledo and Ricardo Marcondes Marcacini
- Abstract要約: 感情分析にジョイントファインチューニングを用いたトランスファーラーニング手法を提案する。
本提案では,テキストと画像の事前学習モデルを共同調整段階に組み込む際の柔軟性について述べる。
- 参考スコア(独自算出の注目度): 0.6091702876917281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing methods focus on sentiment analysis of textual data. However,
recently there has been a massive use of images and videos on social platforms,
motivating sentiment analysis from other modalities. Current studies show that
exploring other modalities (e.g., images) increases sentiment analysis
performance. State-of-the-art multimodal models, such as CLIP and VisualBERT,
are pre-trained on datasets with the text paired with images. Although the
results obtained by these models are promising, pre-training and sentiment
analysis fine-tuning tasks of these models are computationally expensive. This
paper introduces a transfer learning approach using joint fine-tuning for
sentiment analysis. Our proposal achieved competitive results using a more
straightforward alternative fine-tuning strategy that leverages different
pre-trained unimodal models and efficiently combines them in a multimodal
space. Moreover, our proposal allows flexibility when incorporating any
pre-trained model for texts and images during the joint fine-tuning stage,
being especially interesting for sentiment classification in low-resource
scenarios.
- Abstract(参考訳): 既存の手法はテキストデータの感情分析に重点を置いている。
しかし、最近ではソーシャルプラットフォーム上で画像やビデオが大量に利用され、他のモダリティからの感情分析が動機となっている。
最近の研究では、他のモダリティ(画像など)を探索することで、感情分析のパフォーマンスが向上している。
CLIPやVisualBERTのような最先端のマルチモーダルモデルは、画像と組み合わせたテキストでデータセット上で事前トレーニングされる。
これらのモデルで得られた結果は有望であるが、事前学習と感情分析の微調整作業は計算コストがかかる。
本稿では,感情分析のための関節ファインチューニングを用いた伝達学習手法を提案する。
提案手法は, 異なる訓練済みの単調モデルを活用し, マルチモーダル空間で効率的に組み合わせた, より簡単なファインチューニング戦略を用いて, 競争的な結果を得た。
さらに,本提案では,テキストと画像の事前学習モデルを共同微調整段階に組み込むことで,低リソースシナリオにおける感情分類に特に関心がある。
関連論文リスト
- Utilizing Large Language Models for Event Deconstruction to Enhance Multimodal Aspect-Based Sentiment Analysis [2.1329326061804816]
本稿では,イベント分解のためのLarge Language Models (LLMs)を導入し,マルチモーダル・アスペクト・ベース・センチメント分析(MABSA-RL)のための強化学習フレームワークを提案する。
実験の結果,MABSA-RLは2つのベンチマークデータセットにおいて既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-18T03:40:45Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Self-training Strategies for Sentiment Analysis: An Empirical Study [7.416913210816592]
自己学習は感情分析モデルを開発するための経済的かつ効率的な手法である。
いくつかの自己学習戦略と大規模言語モデルの介入を比較した。
論文 参考訳(メタデータ) (2023-09-15T21:42:46Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Informative Sample Mining Network for Multi-Domain Image-to-Image
Translation [101.01649070998532]
本稿では,画像から画像への翻訳作業において,サンプル選択戦略の改善が有効であることを示す。
本稿では,サンプルの硬さを抑えつつ,サンプルの硬さを抑えるための新しい多段階サンプルトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-01-05T05:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。