論文の概要: GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual
Affective Computing
- arxiv url: http://arxiv.org/abs/2403.05916v1
- Date: Sat, 9 Mar 2024 13:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:39:46.114028
- Title: GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual
Affective Computing
- Title(参考訳): GPTは心理学者?
視覚効果コンピューティングにおけるGPT-4Vの予備評価
- Authors: Hao Lu, Xuesong Niu, Jiyao Wang, Yin Wang, Qingyong Hu, Jiaqi Tang,
Yuting Zhang, Kaishen Yuan, Bin Huang, Zitong Yu, Dengbo He, Shuiguang Deng,
Hao Chen, Yingcong Chen, Shiguang Shan
- Abstract要約: マルチモーダル言語モデル(MLM)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理、統合するために設計されている。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つインクリングの適用性を評価する。
GPT4は、顔表情認識性能が正確でないにもかかわらず、顔動作単位認識と微小表現検出において高い精度を有する。
- 参考スコア(独自算出の注目度): 76.22275262399378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal language models (MLMs) are designed to process and integrate
information from multiple sources, such as text, speech, images, and videos.
Despite its success in language understanding, it is critical to evaluate the
performance of downstream tasks for better human-centric applications. This
paper assesses the application of MLMs with 5 crucial abilities for affective
computing, spanning from visual affective tasks and reasoning tasks. The
results show that GPT4 has high accuracy in facial action unit recognition and
micro-expression detection while its general facial expression recognition
performance is not accurate. We also highlight the challenges of achieving
fine-grained micro-expression recognition and the potential for further study
and demonstrate the versatility and potential of GPT4 for handling advanced
tasks in emotion recognition and related fields by integrating with
task-related agents for more complex tasks, such as heart rate estimation
through signal processing. In conclusion, this paper provides valuable insights
into the potential applications and challenges of MLMs in human-centric
computing. The interesting samples are available at
\url{https://github.com/LuPaoPao/GPT4Affectivity}.
- Abstract(参考訳): マルチモーダル言語モデル(MLM)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理、統合するために設計されている。
言語理解の成功にもかかわらず、より優れた人間中心のアプリケーションのために下流タスクのパフォーマンスを評価することは重要である。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMDMの適用性を評価する。
その結果, GPT4は表情認識性能が不正確であるにもかかわらず, 顔動作単位認識と微小表現検出の精度が高いことがわかった。
また,より複雑なタスク,例えば信号処理による心拍数推定など,タスク関連エージェントと統合することで,感情認識や関連分野における高度なタスクを扱うためのgpt4の汎用性と可能性について,より詳細なマイクロ表現認識の実現の課題とさらなる研究の可能性を強調した。
本稿では,人間中心型コンピューティングにおけるmlmsの応用可能性と課題について考察する。
興味深いサンプルは \url{https://github.com/lupaopao/gpt4affectivity} で入手できる。
関連論文リスト
- DetoxBench: Benchmarking Large Language Models for Multitask Fraud & Abuse Detection [15.933013428603152]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な能力を示した。
不正で虐待的な言語を識別・緩和する上で,LLMの性能を評価するためのベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2024-09-09T21:12:03Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion Recognition [38.2581985358104]
GPT-4 with Vision (GPT-4V) は、様々なタスクにおいて顕著な視覚能力を示すが、その感情認識性能は十分に評価されていない。
6つのタスクをカバーする21のベンチマークデータセットに対して,GPT-4Vの定量的評価結果を示す。
論文 参考訳(メタデータ) (2023-12-07T13:27:37Z) - Fine-grained Affective Processing Capabilities Emerging from Large
Language Models [7.17010996725842]
本稿では,ChatGPTのゼロショット機能について,プロンプトのみを用いて情緒的な計算処理を行う方法について検討する。
b) 感情カテゴリーの観点で意味のある感情表現を持ち, c) 状況の基本的な評価に基づく感情誘発を行うことができることを示す。
論文 参考訳(メタデータ) (2023-09-04T15:32:47Z) - GMSS: Graph-Based Multi-Task Self-Supervised Learning for EEG Emotion
Recognition [48.02958969607864]
本稿では,脳波感情認識のためのグラフベースマルチタスク自己教師学習モデル(GMSS)を提案する。
複数のタスクから同時に学習することで、GMSSはすべてのタスクをキャプチャする表現を見つけることができる。
SEED、SEED-IV、MPEDデータセットの実験により、提案モデルが脳波の感情信号に対するより差別的で一般的な特徴を学習する際、顕著な利点があることが示されている。
論文 参考訳(メタデータ) (2022-04-12T03:37:21Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z) - Learning to Augment Expressions for Few-shot Fine-grained Facial
Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。
顔の表情は119人から54人まで、200万枚以上の画像が含まれている。
実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。
顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文 参考訳(メタデータ) (2020-01-17T03:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。