Fugu-MT 論文翻訳(概要): GPT-4V with Emotion: A Zero-shot Benchmark for Multimodal Emotion Understanding

論文の概要: GPT-4V with Emotion: A Zero-shot Benchmark for Multimodal Emotion Understanding

arxiv url: http://arxiv.org/abs/2312.04293v1
Date: Thu, 7 Dec 2023 13:27:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 14:55:11.282337
Title: GPT-4V with Emotion: A Zero-shot Benchmark for Multimodal Emotion Understanding
Title（参考訳）: GPT-4V:マルチモーダル感情理解のためのゼロショットベンチマーク
Authors: Zheng Lian, Licai Sun, Haiyang Sun, Kang Chen, Zhuofan Wen, Hao Gu, Shun Chen, Bin Liu, Jianhua Tao
Abstract要約: GPT-4 with Vision (GPT-4V) は様々なマルチモーダルタスクにおいて顕著な性能を示した。本稿では,マルチモーダル感情理解におけるGPT-4Vの能力について定量的に評価する。
参考スコア（独自算出の注目度）: 38.45608954692253
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, GPT-4 with Vision (GPT-4V) has shown remarkable performance across various multimodal tasks. However, its efficacy in emotion recognition remains a question. This paper quantitatively evaluates GPT-4V's capabilities in multimodal emotion understanding, encompassing tasks such as facial emotion recognition, visual sentiment analysis, micro-expression recognition, dynamic facial emotion recognition, and multimodal emotion recognition. Our experiments show that GPT-4V exhibits impressive multimodal and temporal understanding capabilities, even surpassing supervised systems in some tasks. Despite these achievements, GPT-4V is currently tailored for general domains. It performs poorly in micro-expression recognition that requires specialized expertise. The main purpose of this paper is to present quantitative results of GPT-4V on emotion understanding and establish a zero-shot benchmark for future research. Code and evaluation results are available at: https://github.com/zeroQiaoba/gpt4v-emotion.
Abstract（参考訳）: 近年, GPT-4 with Vision (GPT-4V) は様々なマルチモーダルタスクにおいて顕著な性能を示した。しかし、感情認識における効果は疑問視されている。本稿では,マルチモーダル感情理解におけるGPT-4Vの能力を定量的に評価し,顔の感情認識,視覚的感情分析,マイクロ圧縮認識,動的表情認識,マルチモーダル感情認識などのタスクを包含する。実験の結果,gpt-4vは有意なマルチモーダル・テンポラリ理解能力を示し,一部のタスクでは教師付きシステムを超えていることがわかった。これらの成果にもかかわらず、GPT-4Vは現在一般ドメイン向けに調整されている。専門的な専門知識を必要とするマイクロ表現認識が不十分である。本研究の目的は,感情理解に関するgpt-4vの定量的評価と,今後の研究のためのゼロショットベンチマークの確立である。コードと評価結果は以下の通りである。

関連論文リスト

ChatGPT Meets Iris Biometrics [10.902536447343465]
本研究では,GPT-4マルチモーダル大言語モデル(LLM)の高度な機能を活用し,虹彩認識の可能性を探る。我々は、ChatGPTのようなAIツールが虹彩画像の理解と分析をいかにうまく行うかを検討する。我々の発見は、将来の研究と、より適応性があり、効率的で、堅牢で、インタラクティブな生体認証ソリューションの開発に期待できる道のりを示唆している。
論文参考訳（メタデータ） (2024-08-09T05:13:07Z)
GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing [74.68232970965595]
MLLM(Multimodal large language model)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理し、統合するように設計されている。本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMLLMの適用性を評価する。
論文参考訳（メタデータ） (2024-03-09T13:56:25Z)
GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文参考訳（メタデータ） (2023-11-27T11:29:10Z)
Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks [53.936643052339]
GPT-4のテキストのみおよびマルチモーダル版による推論能力の評価を行った。実験結果から,GPT-4のどちらのバージョンも人間に近いレベルで頑健な抽象化能力を開発していないという結論が得られた。
論文参考訳（メタデータ） (2023-11-14T04:33:49Z)
GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文参考訳（メタデータ） (2023-11-02T16:11:09Z)
An Early Evaluation of GPT-4V(ision) [40.866323649060696]
我々は,GPT-4Vの視覚的理解,言語理解,視覚パズルの解法,深度,熱,映像,音声などの他のモダリティの理解など,様々な能力を評価する。 GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。
論文参考訳（メタデータ） (2023-10-25T10:33:17Z)
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。 GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。 GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文参考訳（メタデータ） (2023-09-29T17:34:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。