Fugu-MT 論文翻訳(概要): GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing

論文の概要: GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing

arxiv url: http://arxiv.org/abs/2403.05916v1
Date: Sat, 9 Mar 2024 13:56:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 11:39:46.114028
Title: GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing
Title（参考訳）: GPTは心理学者? 視覚効果コンピューティングにおけるGPT-4Vの予備評価
Authors: Hao Lu, Xuesong Niu, Jiyao Wang, Yin Wang, Qingyong Hu, Jiaqi Tang, Yuting Zhang, Kaishen Yuan, Bin Huang, Zitong Yu, Dengbo He, Shuiguang Deng, Hao Chen, Yingcong Chen, Shiguang Shan
Abstract要約: マルチモーダル言語モデル(MLM)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理、統合するために設計されている。本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つインクリングの適用性を評価する。 GPT4は、顔表情認識性能が正確でないにもかかわらず、顔動作単位認識と微小表現検出において高い精度を有する。
参考スコア（独自算出の注目度）: 76.22275262399378
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal language models (MLMs) are designed to process and integrate information from multiple sources, such as text, speech, images, and videos. Despite its success in language understanding, it is critical to evaluate the performance of downstream tasks for better human-centric applications. This paper assesses the application of MLMs with 5 crucial abilities for affective computing, spanning from visual affective tasks and reasoning tasks. The results show that GPT4 has high accuracy in facial action unit recognition and micro-expression detection while its general facial expression recognition performance is not accurate. We also highlight the challenges of achieving fine-grained micro-expression recognition and the potential for further study and demonstrate the versatility and potential of GPT4 for handling advanced tasks in emotion recognition and related fields by integrating with task-related agents for more complex tasks, such as heart rate estimation through signal processing. In conclusion, this paper provides valuable insights into the potential applications and challenges of MLMs in human-centric computing. The interesting samples are available at \url{https://github.com/LuPaoPao/GPT4Affectivity}.
Abstract（参考訳）: マルチモーダル言語モデル(MLM)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理、統合するために設計されている。言語理解の成功にもかかわらず、より優れた人間中心のアプリケーションのために下流タスクのパフォーマンスを評価することは重要である。本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMDMの適用性を評価する。その結果, GPT4は表情認識性能が不正確であるにもかかわらず, 顔動作単位認識と微小表現検出の精度が高いことがわかった。また,より複雑なタスク,例えば信号処理による心拍数推定など,タスク関連エージェントと統合することで,感情認識や関連分野における高度なタスクを扱うためのgpt4の汎用性と可能性について,より詳細なマイクロ表現認識の実現の課題とさらなる研究の可能性を強調した。本稿では,人間中心型コンピューティングにおけるmlmsの応用可能性と課題について考察する。興味深いサンプルは \url{https://github.com/lupaopao/gpt4affectivity} で入手できる。

関連論文リスト

Pixels, Patterns, but No Poetry: To See The World like Humans [33.773551676022514]
最先端のMLLMは、人間にとって簡単な私たちの知覚上のタスクに破滅的な失敗を示します。この論文は、推論から知覚へと焦点を移す。
論文参考訳（メタデータ） (2025-07-21T21:50:16Z)
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文参考訳（メタデータ） (2025-05-27T17:29:31Z)
DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文参考訳（メタデータ） (2025-03-17T04:06:34Z)
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。 VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。 GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
DetoxBench: Benchmarking Large Language Models for Multitask Fraud & Abuse Detection [15.933013428603152]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な能力を示した。不正で虐待的な言語を識別・緩和する上で,LLMの性能を評価するためのベンチマークスイートを提案する。
論文参考訳（メタデータ） (2024-09-09T21:12:03Z)
Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文参考訳（メタデータ） (2024-03-07T08:25:27Z)
SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models [61.8876114116716]
MLLM(Multimodal large language model)は、視覚関連タスクにおいて強力な機能を示す。しかし、顔攻撃検出タスクにおける微妙な視覚的偽造や偽造の手がかりを検出する能力は、まだ探索されていない。フェーススプーフィングと偽造検出のためのMLLM評価のためのベンチマークShiELDを導入する。
論文参考訳（メタデータ） (2024-02-06T17:31:36Z)
GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion Recognition [38.2581985358104]
GPT-4 with Vision (GPT-4V) は、様々なタスクにおいて顕著な視覚能力を示すが、その感情認識性能は十分に評価されていない。 6つのタスクをカバーする21のベンチマークデータセットに対して,GPT-4Vの定量的評価結果を示す。
論文参考訳（メタデータ） (2023-12-07T13:27:37Z)
Fine-grained Affective Processing Capabilities Emerging from Large Language Models [7.17010996725842]
本稿では,ChatGPTのゼロショット機能について,プロンプトのみを用いて情緒的な計算処理を行う方法について検討する。 b) 感情カテゴリーの観点で意味のある感情表現を持ち, c) 状況の基本的な評価に基づく感情誘発を行うことができることを示す。
論文参考訳（メタデータ） (2023-09-04T15:32:47Z)
GMSS: Graph-Based Multi-Task Self-Supervised Learning for EEG Emotion Recognition [48.02958969607864]
本稿では,脳波感情認識のためのグラフベースマルチタスク自己教師学習モデル(GMSS)を提案する。複数のタスクから同時に学習することで、GMSSはすべてのタスクをキャプチャする表現を見つけることができる。 SEED、SEED-IV、MPEDデータセットの実験により、提案モデルが脳波の感情信号に対するより差別的で一般的な特徴を学習する際、顕著な利点があることが示されている。
論文参考訳（メタデータ） (2022-04-12T03:37:21Z)
Distribution Matching for Heterogeneous Multi-Task Learning: a Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文参考訳（メタデータ） (2021-05-08T22:26:52Z)
Continuous Emotion Recognition via Deep Convolutional Autoencoder and Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文参考訳（メタデータ） (2020-01-31T17:47:16Z)
Learning to Augment Expressions for Few-shot Fine-grained Facial Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。顔の表情は119人から54人まで、200万枚以上の画像が含まれている。実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文参考訳（メタデータ） (2020-01-17T03:26:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。