論文の概要: GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2312.04293v2
- Date: Sat, 3 Feb 2024 02:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 03:42:13.397154
- Title: GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion
Recognition
- Title(参考訳): GPT-4V:一般感情認識のためのゼロショットベンチマーク
- Authors: Zheng Lian, Licai Sun, Haiyang Sun, Kang Chen, Zhuofan Wen, Hao Gu,
Bin Liu, Jianhua Tao
- Abstract要約: GPT-4 with Vision (GPT-4V) は、様々なタスクにおいて顕著な視覚能力を示すが、その感情認識性能は十分に評価されていない。
5つのタスクをカバーする19のベンチマークデータセットに対して,GPT-4Vの定量的評価結果を示す。
- 参考スコア(独自算出の注目度): 39.90598703384036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, GPT-4 with Vision (GPT-4V) has demonstrated remarkable visual
capabilities across various tasks, but its performance in emotion recognition
has not been fully evaluated. To bridge this gap, we present the quantitative
evaluation results of GPT-4V on 19 benchmark datasets covering 5 tasks: visual
sentiment analysis, micro-expression recognition, facial emotion recognition,
dynamic facial emotion recognition, and multimodal emotion recognition. This
paper collectively refers to these tasks as ``Generalized Emotion Recognition
(GER)''. Through experimental analysis, we observe that GPT-4V generally
outperforms supervised systems in visual sentiment analysis, highlighting its
powerful visual understanding capabilities. Meanwhile, GPT-4V shows the ability
to integrate multimodal clues and exploit temporal information, which is also
critical for emotion recognition. Despite these achievements, GPT-4V is
primarily tailored for general-purpose domains, which cannot recognize
micro-expressions that require specialized knowledge. To the best of our
knowledge, this paper provides the first quantitative assessment of GPT-4V for
the GER tasks, offering valuable insights to researchers in this field. It can
also serve as a zero-shot benchmark for subsequent research. Our code and
evaluation results are available at:
https://github.com/zeroQiaoba/gpt4v-emotion.
- Abstract(参考訳): 近年, GPT-4 with Vision (GPT-4V) は様々なタスクにおいて顕著な視覚能力を示したが, 感情認識性能は十分に評価されていない。
このギャップを埋めるため,gpt-4vの定量的評価結果を,視覚感情分析,マイクロ表現認識,表情認識,動的表情認識,マルチモーダル感情認識の5つのタスクをカバーする19のベンチマークデータセットに提示する。
本稿では,これらの課題を総合的に「一般化感情認識(GER)」と呼ぶ。
実験により,GPT-4Vは視覚的感情分析において教師付きシステムよりも優れており,その強力な視覚理解能力を強調している。
一方、GPT-4Vは、マルチモーダルな手がかりを統合し、時間的情報を活用する能力を示す。
これらの成果にもかかわらず、gpt-4vは主に専門知識を必要とするマイクロ表現を認識できない汎用ドメイン向けに調整されている。
本稿では,GER タスクに対する GPT-4V の定量的評価を初めて行い,この分野の研究者に貴重な知見を提供する。
また、その後の研究のゼロショットベンチマークとしても機能する。
コードと評価結果は、https://github.com/zeroqiaoba/gpt4v-emotion.com/で確認できます。
関連論文リスト
- ChatGPT Meets Iris Biometrics [10.902536447343465]
本研究では,GPT-4マルチモーダル大言語モデル(LLM)の高度な機能を活用し,虹彩認識の可能性を探る。
我々は、ChatGPTのようなAIツールが虹彩画像の理解と分析をいかにうまく行うかを検討する。
我々の発見は、将来の研究と、より適応性があり、効率的で、堅牢で、インタラクティブな生体認証ソリューションの開発に期待できる道のりを示唆している。
論文 参考訳(メタデータ) (2024-08-09T05:13:07Z) - GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing [74.68232970965595]
MLLM(Multimodal large language model)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理し、統合するように設計されている。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMLLMの適用性を評価する。
論文 参考訳(メタデータ) (2024-03-09T13:56:25Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks [53.936643052339]
GPT-4のテキストのみおよびマルチモーダル版による推論能力の評価を行った。
実験結果から,GPT-4のどちらのバージョンも人間に近いレベルで頑健な抽象化能力を開発していないという結論が得られた。
論文 参考訳(メタデータ) (2023-11-14T04:33:49Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - An Early Evaluation of GPT-4V(ision) [40.866323649060696]
我々は,GPT-4Vの視覚的理解,言語理解,視覚パズルの解法,深度,熱,映像,音声などの他のモダリティの理解など,様々な能力を評価する。
GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。
論文 参考訳(メタデータ) (2023-10-25T10:33:17Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。