論文の概要: Training A Small Emotional Vision Language Model for Visual Art Comprehension
- arxiv url: http://arxiv.org/abs/2403.11150v1
- Date: Sun, 17 Mar 2024 09:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:15:50.949680
- Title: Training A Small Emotional Vision Language Model for Visual Art Comprehension
- Title(参考訳): 視覚芸術理解のための小さな感情視覚言語モデルの訓練
- Authors: Jing Zhang, Liang Zheng, Dan Guo, Meng Wang,
- Abstract要約: 本稿では,視覚芸術を理解するために,小さな視覚言語モデルを開発する。
感情モデリングと入出力特徴アライメントによって、小さな感情視覚言語モデル(SEVLM)を構築する。
提案手法は,ベースラインSEVLMの視覚的理解性能を一貫して向上することを示す。
- 参考スコア(独自算出の注目度): 35.273057947865176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops small vision language models to understand visual art, which, given an art work, aims to identify its emotion category and explain this prediction with natural language. While small models are computationally efficient, their capacity is much limited compared with large models. To break this trade-off, this paper builds a small emotional vision language model (SEVLM) by emotion modeling and input-output feature alignment. On the one hand, based on valence-arousal-dominance (VAD) knowledge annotated by psychology experts, we introduce and fuse emotional features derived through VAD dictionary and a VAD head to align VAD vectors of predicted emotion explanation and the ground truth. This allows the vision language model to better understand and generate emotional texts, compared with using traditional text embeddings alone. On the other hand, we design a contrastive head to pull close embeddings of the image, its emotion class, and explanation, which aligns model outputs and inputs. On two public affective explanation datasets, we show that the proposed techniques consistently improve the visual art understanding performance of baseline SEVLMs. Importantly, the proposed model can be trained and evaluated on a single RTX 2080 Ti while exhibiting very strong performance: it not only outperforms the state-of-the-art small models but is also competitive compared with LLaVA 7B after fine-tuning and GPT4(V).
- Abstract(参考訳): 本稿では、視覚芸術を理解するための小さな視覚言語モデルを開発し、芸術作品として、その感情カテゴリーを特定し、この予測を自然言語で説明することを目的とする。
小型モデルは計算効率が良いが、大きなモデルに比べて容量は限られている。
このトレードオフを打破するために,感情モデリングと入出力特徴アライメントによる感情視覚言語モデル(SEVLM)を構築した。
一方,心理学の専門家によるVAD(valence-arousal-dominance)の知識に基づいて,VAD辞書とVADヘッドから得られた感情的特徴を導入・融合し,予測された感情的説明と基底的真実のVADベクトルを整合させる。
これにより、視覚言語モデルでは、従来のテキスト埋め込みのみを使用する場合と比較して、感情的なテキストをよりよく理解し、生成することができる。
一方,画像の近接埋め込み,感情クラス,説明文を抽出し,モデル出力と入力を整列させるコントラストヘッドを設計する。
2つの公的な情緒的説明データセットにおいて,提案手法はベースラインSEVLMの視覚的理解性能を一貫して向上することを示した。
特に,RTX 2080 Tiを1つのモデルでトレーニングし,非常に高い性能を示しながら評価することができる。これは最先端の小型モデルよりも優れるだけでなく,微調整とGPT4(V)の後にLLaVA 7Bと比較できる。
関連論文リスト
- Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - EmoVIT: Revolutionizing Emotion Insights with Visual Instruction Tuning [26.95442405140093]
本研究は,情緒的文脈に関連する指導の理解と定着におけるモデルの能力向上に焦点を当てる。
本稿では,感情の視覚的インストラクションデータを生成するための新しいGPT支援パイプラインを提案する。
提案するEmoVITアーキテクチャは感情固有の命令データを組み込んで,大規模言語モデルの強力な機能を活用している。
論文 参考訳(メタデータ) (2024-04-25T15:15:36Z) - ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling [35.098725056881655]
大型視覚言語モデル(LVLM)は前例のない視覚推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素の幻覚などのエラーが発生する。
そこで我々は,LVLMの視覚的接地性を高めるために,微粒な報酬モデルを用いた新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。