論文の概要: GPT-4V with Emotion: A Zero-shot Benchmark for Multimodal Emotion
Understanding
- arxiv url: http://arxiv.org/abs/2312.04293v1
- Date: Thu, 7 Dec 2023 13:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:55:11.282337
- Title: GPT-4V with Emotion: A Zero-shot Benchmark for Multimodal Emotion
Understanding
- Title(参考訳): GPT-4V:マルチモーダル感情理解のためのゼロショットベンチマーク
- Authors: Zheng Lian, Licai Sun, Haiyang Sun, Kang Chen, Zhuofan Wen, Hao Gu,
Shun Chen, Bin Liu, Jianhua Tao
- Abstract要約: GPT-4 with Vision (GPT-4V) は様々なマルチモーダルタスクにおいて顕著な性能を示した。
本稿では,マルチモーダル感情理解におけるGPT-4Vの能力について定量的に評価する。
- 参考スコア(独自算出の注目度): 38.45608954692253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, GPT-4 with Vision (GPT-4V) has shown remarkable performance across
various multimodal tasks. However, its efficacy in emotion recognition remains
a question. This paper quantitatively evaluates GPT-4V's capabilities in
multimodal emotion understanding, encompassing tasks such as facial emotion
recognition, visual sentiment analysis, micro-expression recognition, dynamic
facial emotion recognition, and multimodal emotion recognition. Our experiments
show that GPT-4V exhibits impressive multimodal and temporal understanding
capabilities, even surpassing supervised systems in some tasks. Despite these
achievements, GPT-4V is currently tailored for general domains. It performs
poorly in micro-expression recognition that requires specialized expertise. The
main purpose of this paper is to present quantitative results of GPT-4V on
emotion understanding and establish a zero-shot benchmark for future research.
Code and evaluation results are available at:
https://github.com/zeroQiaoba/gpt4v-emotion.
- Abstract(参考訳): 近年, GPT-4 with Vision (GPT-4V) は様々なマルチモーダルタスクにおいて顕著な性能を示した。
しかし、感情認識における効果は疑問視されている。
本稿では,マルチモーダル感情理解におけるGPT-4Vの能力を定量的に評価し,顔の感情認識,視覚的感情分析,マイクロ圧縮認識,動的表情認識,マルチモーダル感情認識などのタスクを包含する。
実験の結果,gpt-4vは有意なマルチモーダル・テンポラリ理解能力を示し,一部のタスクでは教師付きシステムを超えていることがわかった。
これらの成果にもかかわらず、GPT-4Vは現在一般ドメイン向けに調整されている。
専門的な専門知識を必要とするマイクロ表現認識が不十分である。
本研究の目的は,感情理解に関するgpt-4vの定量的評価と,今後の研究のためのゼロショットベンチマークの確立である。
コードと評価結果は以下の通りである。
関連論文リスト
- GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual
Affective Computing [76.22275262399378]
マルチモーダル言語モデル(MLM)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理、統合するために設計されている。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つインクリングの適用性を評価する。
GPT4は、顔表情認識性能が正確でないにもかかわらず、顔動作単位認識と微小表現検出において高い精度を有する。
論文 参考訳(メタデータ) (2024-03-09T13:56:25Z) - Assessing the Aesthetic Evaluation Capabilities of GPT-4 with Vision:
Insights from Group and Individual Assessments [2.539875353011627]
本研究は,画像の美的評価課題に対するビジョン付きGPT-4の性能について検討する。
我々は,グループの平均評価値と個人の評価値の予測という2つのタスクを採用する。
GPT-4は美的評価の予測に優れた性能を示し,美容と美容に対する異なる反応の性質を示した。
論文 参考訳(メタデータ) (2024-03-06T10:27:09Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual
Question Answering [56.01977227584777]
マルチモーダル・大型モデル (MLM) は視覚的理解の分野を大幅に進歩させた。
しかし、真の課題は知識集約型視覚質問応答(VQA)タスクの領域にある。
本研究は,新たに導入されたGPT-4Vの詳細な評価を提供する。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - An Early Evaluation of GPT-4V(ision) [40.866323649060696]
我々は,GPT-4Vの視覚的理解,言語理解,視覚パズルの解法,深度,熱,映像,音声などの他のモダリティの理解など,様々な能力を評価する。
GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。
論文 参考訳(メタデータ) (2023-10-25T10:33:17Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。