論文の概要: GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual
Affective Computing
- arxiv url: http://arxiv.org/abs/2403.05916v1
- Date: Sat, 9 Mar 2024 13:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:39:46.114028
- Title: GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual
Affective Computing
- Title(参考訳): GPTは心理学者?
視覚効果コンピューティングにおけるGPT-4Vの予備評価
- Authors: Hao Lu, Xuesong Niu, Jiyao Wang, Yin Wang, Qingyong Hu, Jiaqi Tang,
Yuting Zhang, Kaishen Yuan, Bin Huang, Zitong Yu, Dengbo He, Shuiguang Deng,
Hao Chen, Yingcong Chen, Shiguang Shan
- Abstract要約: マルチモーダル言語モデル(MLM)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理、統合するために設計されている。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つインクリングの適用性を評価する。
GPT4は、顔表情認識性能が正確でないにもかかわらず、顔動作単位認識と微小表現検出において高い精度を有する。
- 参考スコア(独自算出の注目度): 76.22275262399378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal language models (MLMs) are designed to process and integrate
information from multiple sources, such as text, speech, images, and videos.
Despite its success in language understanding, it is critical to evaluate the
performance of downstream tasks for better human-centric applications. This
paper assesses the application of MLMs with 5 crucial abilities for affective
computing, spanning from visual affective tasks and reasoning tasks. The
results show that GPT4 has high accuracy in facial action unit recognition and
micro-expression detection while its general facial expression recognition
performance is not accurate. We also highlight the challenges of achieving
fine-grained micro-expression recognition and the potential for further study
and demonstrate the versatility and potential of GPT4 for handling advanced
tasks in emotion recognition and related fields by integrating with
task-related agents for more complex tasks, such as heart rate estimation
through signal processing. In conclusion, this paper provides valuable insights
into the potential applications and challenges of MLMs in human-centric
computing. The interesting samples are available at
\url{https://github.com/LuPaoPao/GPT4Affectivity}.
- Abstract(参考訳): マルチモーダル言語モデル(MLM)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理、統合するために設計されている。
言語理解の成功にもかかわらず、より優れた人間中心のアプリケーションのために下流タスクのパフォーマンスを評価することは重要である。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMDMの適用性を評価する。
その結果, GPT4は表情認識性能が不正確であるにもかかわらず, 顔動作単位認識と微小表現検出の精度が高いことがわかった。
また,より複雑なタスク,例えば信号処理による心拍数推定など,タスク関連エージェントと統合することで,感情認識や関連分野における高度なタスクを扱うためのgpt4の汎用性と可能性について,より詳細なマイクロ表現認識の実現の課題とさらなる研究の可能性を強調した。
本稿では,人間中心型コンピューティングにおけるmlmsの応用可能性と課題について考察する。
興味深いサンプルは \url{https://github.com/lupaopao/gpt4affectivity} で入手できる。
関連論文リスト
- ChatGPT and biometrics: an assessment of face recognition, gender
detection, and age estimation capabilities [2.537406035246369]
本稿では, 顔認証, 性別検出, 年齢推定を中心に, 生体計測関連タスクにおけるChatGPTの能力について検討する。
本研究により,ChatGPTは顔の同一性を認識し,2つの顔画像の識別をかなり精度良く行うことが明らかとなった。
論文 参考訳(メタデータ) (2024-03-05T13:41:25Z) - GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion
Recognition [39.90598703384036]
GPT-4 with Vision (GPT-4V) は、様々なタスクにおいて顕著な視覚能力を示すが、その感情認識性能は十分に評価されていない。
5つのタスクをカバーする19のベンチマークデータセットに対して,GPT-4Vの定量的評価結果を示す。
論文 参考訳(メタデータ) (2023-12-07T13:27:37Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - Is ChatGPT a Good Multi-Party Conversation Solver? [42.939861319863795]
大規模言語モデル (LLM) は自然言語処理の領域において影響力のある道具として出現している。
本稿では,多人数会話におけるLLM生成の可能性について検討する。
実験により,ChatGPTとGPT-4のゼロショット学習能力を評価する。
論文 参考訳(メタデータ) (2023-10-25T02:18:40Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - Fine-grained Affective Processing Capabilities Emerging from Large
Language Models [7.17010996725842]
本稿では,ChatGPTのゼロショット機能について,プロンプトのみを用いて情緒的な計算処理を行う方法について検討する。
b) 感情カテゴリーの観点で意味のある感情表現を持ち, c) 状況の基本的な評価に基づく感情誘発を行うことができることを示す。
論文 参考訳(メタデータ) (2023-09-04T15:32:47Z) - Metacognitive Prompting Improves Understanding in Large Language Models [14.30980373935713]
メタ認知プロンプト(MP)は,人間の内省的推論プロセスにインスパイアされた戦略である。
MPを用いて、LLMは構造化された自己認識評価の体系的なシリーズを実行する。
MPは、標準とチェーンのプロンプトを含む既存のプロンプトメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2023-08-10T05:10:17Z) - Weighted Training for Cross-Task Learning [71.94908559469475]
クロスタスク学習のための重み付きトレーニングアルゴリズムであるTarget-Aware Weighted Training (TAWT)を紹介する。
TAWTは実装が容易で、計算効率が高く、ハイパーパラメータチューニングがほとんど必要とせず、漸近的でない学習理論の保証を享受できることを示す。
副産物として、提案された表現に基づくタスク距離は、クロスタスク学習のいくつかの重要な側面について理論的に原則化された方法で推論することができる。
論文 参考訳(メタデータ) (2021-05-28T20:27:02Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。