論文の概要: LLaVAC: Fine-tuning LLaVA as a Multimodal Sentiment Classifier
- arxiv url: http://arxiv.org/abs/2502.02938v1
- Date: Wed, 05 Feb 2025 07:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:27:43.052317
- Title: LLaVAC: Fine-tuning LLaVA as a Multimodal Sentiment Classifier
- Title(参考訳): LLaVAC:マルチモーダル感性分類器としての微調整型LLaVA
- Authors: T. Chay-intr, Y. Chen, K. Viriyayudhakorn, T. Theeramunkong,
- Abstract要約: マルチモーダル感情分析のための分類器構築手法であるLLaVACを提案する。
提案手法では,単モーダルラベルとマルチモーダルラベルの両方を微調整LLaVAに組み込んだ構造化プロンプトを設計する。
MVSA-Singleデータセットの実験により、LLaVACはマルチモーダル感情分析において既存の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 0.5999777817331317
- License:
- Abstract: We present LLaVAC, a method for constructing a classifier for multimodal sentiment analysis. This method leverages fine-tuning of the Large Language and Vision Assistant (LLaVA) to predict sentiment labels across both image and text modalities. Our approach involves designing a structured prompt that incorporates both unimodal and multimodal labels to fine-tune LLaVA, enabling it to perform sentiment classification effectively. Experiments on the MVSA-Single dataset demonstrate that LLaVAC outperforms existing methods in multimodal sentiment analysis across three data processing procedures. The implementation of LLaVAC is publicly available at https://github.com/tchayintr/llavac.
- Abstract(参考訳): マルチモーダル感情分析のための分類器構築手法であるLLaVACを提案する。
この手法はLarge Language and Vision Assistant (LLaVA) の微調整を利用して、画像とテキストの両モードで感情ラベルを予測する。
提案手法では,単調ラベルとマルチモーダルラベルの両方を微調整LLaVAに組み込んだ構造化プロンプトを設計し,感情分類を効果的に行う。
MVSA-Singleデータセットの実験により、LLaVACは3つのデータ処理手順にわたるマルチモーダル感情分析において、既存の手法よりも優れていることが示された。
LLaVACの実装はhttps://github.com/tchayintr/llavacで公開されている。
関連論文リスト
- Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding [71.01099784480597]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、様々なタスクで優れる
In-Context Contrastive Decoding (ICCD)を導入する。
ICCDは、正と負のインコンテキストの例の出力分布を対比することで、入力ラベルマッピングを強調する。
論文 参考訳(メタデータ) (2025-02-19T14:04:46Z) - Multimodal Fact-Checking with Vision Language Models: A Probing Classifier based Solution with Embedding Strategies [0.9217021281095907]
本研究では,視覚言語モデル(VLM)のファクトチェックにおけるマルチモーダルコンテンツ表現および活用の有効性を評価する。
マルチモーダリティは性能を向上させることができるが,テキストと画像エンコーダの分離埋め込みはVLM埋め込みよりも優れた結果を示した。
論文 参考訳(メタデータ) (2024-12-06T16:13:19Z) - TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings [61.9257731511557]
視覚言語モデル(VLM)を最適化するためのテキストガイド付きLLaVA(TG-LLaVA)を提案する。
学習可能な潜伏埋め込みをブリッジとして使用し、テキスト命令を分析し、視覚エンコーダに解析結果をガイダンスとして付加する。
テキストのガイダンスによって、視覚エンコーダは、人間が質問を考えるとき、画像の最も関連性の高い部分に集中する方法と同様に、テキスト関連の特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-09-15T00:38:34Z) - LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。
スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。
また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T15:52:23Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents [112.37347595630001]
LLaVA-Plusは、大規模マルチモーダルモデルの能力を拡張した汎用マルチモーダルアシスタントである。
事前訓練されたビジョンとビジョン言語モデルのスキルリポジトリを保持しており、ユーザの入力に基づいて関連するツールをアクティベートすることができる。
論文 参考訳(メタデータ) (2023-11-09T15:22:26Z) - LAVA: Label-efficient Visual Learning and Adaptation [68.81393748253325]
LAVAは最近のイノベーションに基づいて、クラスとドメインのシフトを伴う部分的にラベル付けされたデータセットへの適応を可能にする。
ソースデータセット上で自己教師付き視覚表現を学び、クラスラベルセマンティクスを使用してそれらをグラウンドする。
マルチクロップ拡張を用いて高強な擬似ラベルを得る新しい手法により、未ラベルのターゲットデータから得られるゲインを最大化する。
論文 参考訳(メタデータ) (2022-10-19T06:19:14Z) - VL-CheckList: Evaluating Pre-trained Vision-Language Models with
Objects, Attributes and Relations [28.322824790738768]
Vision-Language Pretrainingモデルは、多くのモード間下流タスクを成功に導いた。
既存の作業の多くは、微調整された下流タスクのパフォーマンスを比較することでシステムを評価した。
自然言語処理をテストするためにCheckListにインスパイアされた我々は、新しいフレームワークであるVL-CheckListを利用する。
論文 参考訳(メタデータ) (2022-07-01T06:25:53Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。