論文の概要: GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion Recognition
- arxiv url: http://arxiv.org/abs/2312.04293v3
- Date: Mon, 18 Mar 2024 01:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:42:50.110986
- Title: GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion Recognition
- Title(参考訳): 感情付きGPT-4V:一般化感情認識のためのゼロショットベンチマーク
- Authors: Zheng Lian, Licai Sun, Haiyang Sun, Kang Chen, Zhuofan Wen, Hao Gu, Bin Liu, Jianhua Tao,
- Abstract要約: GPT-4 with Vision (GPT-4V) は、様々なタスクにおいて顕著な視覚能力を示すが、その感情認識性能は十分に評価されていない。
6つのタスクをカバーする21のベンチマークデータセットに対して,GPT-4Vの定量的評価結果を示す。
- 参考スコア(独自算出の注目度): 38.2581985358104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, GPT-4 with Vision (GPT-4V) has demonstrated remarkable visual capabilities across various tasks, but its performance in emotion recognition has not been fully evaluated. To bridge this gap, we present the quantitative evaluation results of GPT-4V on 21 benchmark datasets covering 6 tasks: visual sentiment analysis, tweet sentiment analysis, micro-expression recognition, facial emotion recognition, dynamic facial emotion recognition, and multimodal emotion recognition. This paper collectively refers to these tasks as ``Generalized Emotion Recognition (GER)''. Through experimental analysis, we observe that GPT-4V exhibits strong visual understanding capabilities in GER tasks. Meanwhile, GPT-4V shows the ability to integrate multimodal clues and exploit temporal information, which is also critical for emotion recognition. However, it's worth noting that GPT-4V is primarily designed for general domains and cannot recognize micro-expressions that require specialized knowledge. To the best of our knowledge, this paper provides the first quantitative assessment of GPT-4V for GER tasks. We have open-sourced the code and encourage subsequent researchers to broaden the evaluation scope by including more tasks and datasets. Our code and evaluation results are available at: https://github.com/zeroQiaoba/gpt4v-emotion.
- Abstract(参考訳): 近年, GPT-4 with Vision (GPT-4V) は様々なタスクにおいて顕著な視覚能力を示したが, 感情認識性能は十分に評価されていない。
このギャップを埋めるために、視覚的感情分析、ツイート感情分析、マイクロ圧縮認識、顔の感情認識、動的顔の感情認識、マルチモーダル感情認識の6つのタスクをカバーする21のベンチマークデータセット上で、GPT-4Vの定量的評価結果を示す。
本稿では,これらの課題を総合的に「一般化感情認識(GER)」と呼ぶ。
実験により, GERタスクにおいて, GPT-4Vが強い視覚的理解能力を示すことが明らかとなった。
一方、GPT-4Vは、マルチモーダルな手がかりを統合し、時間的情報を活用する能力を示す。
しかし、GPT-4Vは主に一般的なドメイン向けに設計されており、専門知識を必要とするマイクロ表現を認識できないことに注意する必要がある。
本稿では,GER タスクに対する GPT-4V の定量的評価を行う。
コードをオープンソース化し、その後の研究者に、より多くのタスクやデータセットを含めることで、評価範囲を広げるよう促しています。
私たちのコードと評価結果は、https://github.com/zeroQiaoba/gpt4v-emotion.comで公開されています。
関連論文リスト
- ChatGPT Meets Iris Biometrics [10.902536447343465]
本研究では,GPT-4マルチモーダル大言語モデル(LLM)の高度な機能を活用し,虹彩認識の可能性を探る。
我々は、ChatGPTのようなAIツールが虹彩画像の理解と分析をいかにうまく行うかを検討する。
我々の発見は、将来の研究と、より適応性があり、効率的で、堅牢で、インタラクティブな生体認証ソリューションの開発に期待できる道のりを示唆している。
論文 参考訳(メタデータ) (2024-08-09T05:13:07Z) - GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing [74.68232970965595]
MLLM(Multimodal large language model)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理し、統合するように設計されている。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMLLMの適用性を評価する。
論文 参考訳(メタデータ) (2024-03-09T13:56:25Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks [53.936643052339]
GPT-4のテキストのみおよびマルチモーダル版による推論能力の評価を行った。
実験結果から,GPT-4のどちらのバージョンも人間に近いレベルで頑健な抽象化能力を開発していないという結論が得られた。
論文 参考訳(メタデータ) (2023-11-14T04:33:49Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - An Early Evaluation of GPT-4V(ision) [40.866323649060696]
我々は,GPT-4Vの視覚的理解,言語理解,視覚パズルの解法,深度,熱,映像,音声などの他のモダリティの理解など,様々な能力を評価する。
GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。
論文 参考訳(メタデータ) (2023-10-25T10:33:17Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。