Fugu-MT 論文翻訳(概要): VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning

論文の概要: VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning

arxiv url: http://arxiv.org/abs/2404.07078v1
Date: Wed, 10 Apr 2024 15:09:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-11 13:51:53.846963
Title: VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning
Title（参考訳）: VLLMは、常識推論による感情理解のためのより良いコンテキストを提供する
Authors: Alexandros Xenos, Niki Maria Foteinopoulou, Ioanna Ntinou, Ioannis Patras, Georgios Tzimiropoulos,
Abstract要約: 我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
参考スコア（独自算出の注目度）: 66.23296689828152
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recognising emotions in context involves identifying the apparent emotions of an individual, taking into account contextual cues from the surrounding scene. Previous approaches to this task have involved the design of explicit scene-encoding architectures or the incorporation of external scene-related information, such as captions. However, these methods often utilise limited contextual information or rely on intricate training pipelines. In this work, we leverage the groundbreaking capabilities of Vision-and-Large-Language Models (VLLMs) to enhance in-context emotion classification without introducing complexity to the training process in a two-stage approach. In the first stage, we propose prompting VLLMs to generate descriptions in natural language of the subject's apparent emotion relative to the visual context. In the second stage, the descriptions are used as contextual information and, along with the image input, are used to train a transformer-based architecture that fuses text and visual features before the final classification task. Our experimental results show that the text and image features have complementary information, and our fused architecture significantly outperforms the individual modalities without any complex training methods. We evaluate our approach on three different datasets, namely, EMOTIC, CAER-S, and BoLD, and achieve state-of-the-art or comparable accuracy across all datasets and metrics compared to much more complex approaches. The code will be made publicly available on github: https://github.com/NickyFot/EmoCommonSense.git
Abstract（参考訳）: 文脈における感情を認識するには、周囲のシーンからの文脈的手がかりを考慮して、個人の明らかな感情を特定する必要がある。この課題に対するこれまでのアプローチは、明示的なシーンエンコーディングアーキテクチャの設計や、キャプションなどの外部シーン関連情報の導入であった。しかし、これらの手法はしばしば限られた文脈情報を利用するか、複雑な訓練パイプラインに依存している。本研究では,VLLM(Vision-and-Language Models)のグランドブレーク機能を利用して,2段階のアプローチでトレーニングプロセスに複雑性を導入することなく,コンテキスト内感情分類を強化する。第1段階では、視覚的文脈に対して、被験者の明らかな感情の自然言語で記述するVLLMを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、最終分類タスクの前にテキストと視覚的特徴を融合するトランスフォーマーベースのアーキテクチャを訓練する。実験の結果,テキストと画像の特徴は相補的な情報を持ち,融合アーキテクチャは複雑な学習手法を使わずに個々のモダリティを著しく上回ることがわかった。我々は、EMOTIC、CAER-S、BoLDの3つの異なるデータセットに対するアプローチを評価し、より複雑なアプローチと比較して、すべてのデータセットやメトリクスに対して最先端または同等の精度を達成する。コードはgithubで公開される。 https://github.com/NickyFot/EmoCommonSense.git

関連論文リスト

EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。 EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-08-28T10:02:06Z)
ConText: Driving In-context Learning for Text Removal and Segmentation [59.6299939669307]
本稿では,視覚的インコンテキスト学習パラダイムを光学的文字認識タスクに適用する最初の研究について述べる。画像除去・分離方式のタスクチェイン・コンポジトリを提案する。また、連鎖したプロンプトパターンを潜在クエリ表現に統合するコンテキスト認識アグリゲーションも導入する。
論文参考訳（メタデータ） (2025-06-04T10:06:32Z)
Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation [58.189703277322224]
音声保存表情操作(SPFEM)は、特定の参照感情を表示するために話頭を変更することを目的としている。参照およびソース入力に存在する感情とコンテンツ情報は、SPFEMモデルに対して直接的かつ正確な監視信号を提供することができる。コントラスト学習による指導として、コンテンツと感情の事前学習を提案し、分離されたコンテンツと感情表現を学習する。
論文参考訳（メタデータ） (2025-04-08T04:34:38Z)
VTD-CLIP: Video-to-Text Discretization via Prompting CLIP [44.51452778561945]
視覚言語モデルは視覚的および言語的理解を橋渡しし、ビデオ認識タスクに強力であることが証明されている。既存のアプローチは、主にパラメータ効率の良い画像テキスト事前学習モデルの微調整に依存している。本稿では,時間的モデリングの不十分さによる限定的な解釈可能性や一般化の低さに対処する,ビデオからテキストへの離散化フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-24T07:27:19Z)
Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception [42.432917056115166]
大規模マルチモダリティモデルのトレーニングは、画像と言語を接続する記述的なイメージキャプションに依存している。画像キャプションの強化を目的として, 画像キャプションではなく, 注釈付き画像から訓練した, 市販のビジュアルスペシャリストを活用することを提案する。
論文参考訳（メタデータ） (2024-12-18T18:45:43Z)
Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文参考訳（メタデータ） (2024-05-16T17:59:21Z)
Open-Set Video-based Facial Expression Recognition with Human Expression-sensitive Prompting [28.673734895558322]
本稿では,未知の表情と未知の表情の両方を識別することを目的とした,オープンセット映像に基づく表情認識タスクを提案する。既存のアプローチでは、CLIPのような大規模な視覚言語モデルを使用して、目に見えないクラスを特定する。本稿では,CLIPの映像ベース表情詳細を効果的にモデル化する能力を大幅に向上させる新しいHuman Expression-Sensitive Prompting(HESP)機構を提案する。
論文参考訳（メタデータ） (2024-04-26T01:21:08Z)
EmoVIT: Revolutionizing Emotion Insights with Visual Instruction Tuning [26.95442405140093]
本研究は,情緒的文脈に関連する指導の理解と定着におけるモデルの能力向上に焦点を当てる。本稿では,感情の視覚的インストラクションデータを生成するための新しいGPT支援パイプラインを提案する。提案するEmoVITアーキテクチャは感情固有の命令データを組み込んで,大規模言語モデルの強力な機能を活用している。
論文参考訳（メタデータ） (2024-04-25T15:15:36Z)
Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文参考訳（メタデータ） (2023-01-09T13:54:11Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文参考訳（メタデータ） (2022-03-08T08:10:45Z)
SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-16T03:16:30Z)
Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文参考訳（メタデータ） (2021-12-02T13:06:53Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。 2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文参考訳（メタデータ） (2021-08-22T13:21:58Z)
Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional Architectures in a Contextual Approach for Video-Based Visual Emotion Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文参考訳（メタデータ） (2021-05-16T17:31:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。