Fugu-MT 論文翻訳(概要): GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing

論文の概要: GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing

arxiv url: http://arxiv.org/abs/2403.05916v2
Date: Wed, 10 Apr 2024 07:58:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-11 16:47:58.868620
Title: GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing
Title（参考訳）: 心理学としてのGPT : GPT-4Vの視覚効果コンピューティングにおける予備的評価
Authors: Hao Lu, Xuesong Niu, Jiyao Wang, Yin Wang, Qingyong Hu, Jiaqi Tang, Yuting Zhang, Kaishen Yuan, Bin Huang, Zitong Yu, Dengbo He, Shuiguang Deng, Hao Chen, Yingcong Chen, Shiguang Shan,
Abstract要約: MLLM(Multimodal large language model)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理し、統合するように設計されている。本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMLLMの適用性を評価する。
参考スコア（独自算出の注目度）: 74.68232970965595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal large language models (MLLMs) are designed to process and integrate information from multiple sources, such as text, speech, images, and videos. Despite its success in language understanding, it is critical to evaluate the performance of downstream tasks for better human-centric applications. This paper assesses the application of MLLMs with 5 crucial abilities for affective computing, spanning from visual affective tasks and reasoning tasks. The results show that \gpt has high accuracy in facial action unit recognition and micro-expression detection while its general facial expression recognition performance is not accurate. We also highlight the challenges of achieving fine-grained micro-expression recognition and the potential for further study and demonstrate the versatility and potential of \gpt for handling advanced tasks in emotion recognition and related fields by integrating with task-related agents for more complex tasks, such as heart rate estimation through signal processing. In conclusion, this paper provides valuable insights into the potential applications and challenges of MLLMs in human-centric computing. Our interesting examples are at https://github.com/EnVision-Research/GPT4Affectivity.
Abstract（参考訳）: MLLM(Multimodal large language model)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理し、統合するように設計されている。言語理解の成功にもかかわらず、より優れた人間中心のアプリケーションのために下流タスクのパフォーマンスを評価することは重要である。本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMLLMの適用性を評価する。以上の結果から,顔表情認識性能が不正確であるにもかかわらず,顔動作単位認識と微小表現検出の精度が高いことが明らかとなった。また, 信号処理による心拍推定などの複雑なタスクに, タスク関連エージェントと統合することにより, 感情認識や関連分野における高度なタスクを扱うために, よりきめ細かなマイクロ表現認識を実現することの課題と, さらなる研究の可能性を強調した。結論として,人間中心型コンピューティングにおけるMLLMの潜在的な応用と課題について,貴重な知見を提供する。興味深い例はhttps://github.com/EnVision-Research/GPT4Affectivity.comにある。

関連論文リスト

DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文参考訳（メタデータ） (2025-03-17T04:06:34Z)
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。 VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。 GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
DetoxBench: Benchmarking Large Language Models for Multitask Fraud & Abuse Detection [15.933013428603152]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な能力を示した。不正で虐待的な言語を識別・緩和する上で,LLMの性能を評価するためのベンチマークスイートを提案する。
論文参考訳（メタデータ） (2024-09-09T21:12:03Z)
Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文参考訳（メタデータ） (2024-03-07T08:25:27Z)
SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models [61.8876114116716]
MLLM(Multimodal large language model)は、視覚関連タスクにおいて強力な機能を示す。しかし、顔攻撃検出タスクにおける微妙な視覚的偽造や偽造の手がかりを検出する能力は、まだ探索されていない。フェーススプーフィングと偽造検出のためのMLLM評価のためのベンチマークShiELDを導入する。
論文参考訳（メタデータ） (2024-02-06T17:31:36Z)
GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion Recognition [38.2581985358104]
GPT-4 with Vision (GPT-4V) は、様々なタスクにおいて顕著な視覚能力を示すが、その感情認識性能は十分に評価されていない。 6つのタスクをカバーする21のベンチマークデータセットに対して,GPT-4Vの定量的評価結果を示す。
論文参考訳（メタデータ） (2023-12-07T13:27:37Z)
Fine-grained Affective Processing Capabilities Emerging from Large Language Models [7.17010996725842]
本稿では,ChatGPTのゼロショット機能について,プロンプトのみを用いて情緒的な計算処理を行う方法について検討する。 b) 感情カテゴリーの観点で意味のある感情表現を持ち, c) 状況の基本的な評価に基づく感情誘発を行うことができることを示す。
論文参考訳（メタデータ） (2023-09-04T15:32:47Z)
GMSS: Graph-Based Multi-Task Self-Supervised Learning for EEG Emotion Recognition [48.02958969607864]
本稿では,脳波感情認識のためのグラフベースマルチタスク自己教師学習モデル(GMSS)を提案する。複数のタスクから同時に学習することで、GMSSはすべてのタスクをキャプチャする表現を見つけることができる。 SEED、SEED-IV、MPEDデータセットの実験により、提案モデルが脳波の感情信号に対するより差別的で一般的な特徴を学習する際、顕著な利点があることが示されている。
論文参考訳（メタデータ） (2022-04-12T03:37:21Z)
Distribution Matching for Heterogeneous Multi-Task Learning: a Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文参考訳（メタデータ） (2021-05-08T22:26:52Z)
Continuous Emotion Recognition via Deep Convolutional Autoencoder and Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文参考訳（メタデータ） (2020-01-31T17:47:16Z)
Learning to Augment Expressions for Few-shot Fine-grained Facial Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。顔の表情は119人から54人まで、200万枚以上の画像が含まれている。実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文参考訳（メタデータ） (2020-01-17T03:26:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。