論文の概要: Socratis: Are large multimodal models emotionally aware?
- arxiv url: http://arxiv.org/abs/2308.16741v1
- Date: Thu, 31 Aug 2023 13:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 14:14:00.390309
- Title: Socratis: Are large multimodal models emotionally aware?
- Title(参考訳): socratis: 大規模なマルチモーダルモデルは感情的に認識されているか?
- Authors: Katherine Deng, Arijit Ray, Reuben Tan, Saadia Gabriel, Bryan A.
Plummer, Kate Saenko
- Abstract要約: 既存の感情予測ベンチマークでは、様々な理由で画像やテキストが人間にもたらす感情の多様性を考慮していない。
画像キャプチャー(IC)ペアに複数の感情とそれらを感じる理由をアノテートしたベンチマークであるSocratisを提案する。
我々は、ICペアが与えられた感情を感じる理由を生成するために、最先端のマルチモーダルな大規模言語モデルの能力をベンチマークする。
- 参考スコア(独自算出の注目度): 63.912414283486555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing emotion prediction benchmarks contain coarse emotion labels which do
not consider the diversity of emotions that an image and text can elicit in
humans due to various reasons. Learning diverse reactions to multimodal content
is important as intelligent machines take a central role in generating and
delivering content to society. To address this gap, we propose Socratis, a
\underline{soc}ietal \underline{r}e\underline{a}c\underline{ti}on\underline{s}
benchmark, where each image-caption (IC) pair is annotated with multiple
emotions and the reasons for feeling them. Socratis contains 18K free-form
reactions for 980 emotions on 2075 image-caption pairs from 5 widely-read news
and image-caption (IC) datasets. We benchmark the capability of
state-of-the-art multimodal large language models to generate the reasons for
feeling an emotion given an IC pair. Based on a preliminary human study, we
observe that humans prefer human-written reasons over 2 times more often than
machine-generated ones. This shows our task is harder than standard generation
tasks because it starkly contrasts recent findings where humans cannot tell
apart machine vs human-written news articles, for instance. We further see that
current captioning metrics based on large vision-language models also fail to
correlate with human preferences. We hope that these findings and our benchmark
will inspire further research on training emotionally aware models.
- Abstract(参考訳): 既存の感情予測ベンチマークには、さまざまな理由で画像やテキストが人間にもたらす感情の多様性を考慮しない粗い感情ラベルが含まれている。
マルチモーダルコンテンツに対する多様な反応を学習することは、インテリジェントマシンが社会へのコンテンツの生成と配信において中心的な役割を果たすため重要である。
このギャップに対処するために、我々は、各イメージキャプチャ(ic)ペアに複数の感情とそれらを感じる理由を付記した、counderline{soc}ietal \underline{r}e\underline{a}c\underline{ti}on\underline{s}ベンチマークであるsocratisを提案する。
Socratisには、広く読まれている5つのニュースおよび画像キャプチャ(IC)データセットから、2075のイメージキャプチャペア上での980の感情に対する18Kのフリーフォーム反応が含まれている。
我々は、ICペアが与えられた感情を感じる理由を生成するために、最先端のマルチモーダル言語モデルの能力をベンチマークする。
予備的な人間の研究に基づいて、人間は機械生成の2倍の頻度で人間が書いた理由を好む。
これは、例えば、人間が機械と人書きのニュース記事を区別できない最近の発見とは対照的に、私たちのタスクが通常の生成タスクよりも難しいことを示している。
大規模視覚言語モデルに基づく現在のキャプション指標は,人間の好みにも相関しない。
これらの発見とベンチマークが、感情に敏感なモデルをトレーニングするためのさらなる研究を促すことを期待しています。
関連論文リスト
- MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Improved Emotional Alignment of AI and Humans: Human Ratings of Emotions Expressed by Stable Diffusion v1, DALL-E 2, and DALL-E 3 [10.76478480925475]
生成AIシステムは、テキストや画像を通じて感情を表現する能力がますます高まっている。
生成的AIによって表現される感情と人間の知覚のアライメントを測定する。
我々は、アライメントが使用するAIモデルと感情そのものに大きく依存していることを示します。
論文 参考訳(メタデータ) (2024-05-28T18:26:57Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - Self context-aware emotion perception on human-robot interaction [3.775456992482295]
人間は、文脈情報と異なる文脈が、全く異なる感情表現をもたらす可能性があると考えている。
異なる感情をアンカーし、再ラベルするための2次元感情座標システムを用いた自己文脈認識モデル(SCAM)を導入する。
このアプローチは、オーディオ、ビデオ、マルチモーダル環境において、大幅な改善をもたらした。
論文 参考訳(メタデータ) (2024-01-18T10:58:27Z) - The Good, The Bad, and Why: Unveiling Emotions in Generative AI [73.94035652867618]
EmotionPromptはAIモデルの性能を向上し、EmotionAttackはそれを妨げうることを示す。
EmotionDecodeによると、AIモデルは人間の脳内のドーパミンのメカニズムに似た感情的な刺激を理解することができる。
論文 参考訳(メタデータ) (2023-12-18T11:19:45Z) - Multi-Branch Network for Imagery Emotion Prediction [4.618814297494939]
画像中の離散的感情と連続的感情の両方を予測する新しいマルチブランチネットワーク(MBN)を提案する。
提案手法は,mAPが28.4%,MAEが0.93で最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-12T18:34:56Z) - Language Models (Mostly) Do Not Consider Emotion Triggers When Predicting Emotion [87.18073195745914]
人間の感情が感情の予測において有意であると考えられる特徴とどのように相関するかを検討する。
EmoTriggerを用いて、感情のトリガーを識別する大規模言語モデルの能力を評価する。
分析の結果、感情のトリガーは感情予測モデルにとって健全な特徴ではなく、様々な特徴と感情検出のタスクの間に複雑な相互作用があることが判明した。
論文 参考訳(メタデータ) (2023-11-16T06:20:13Z) - HICEM: A High-Coverage Emotion Model for Artificial Emotional
Intelligence [9.153146173929935]
次世代の人工知能(AEI)は、より深く、より有意義な人間と機械の相互作用に対するユーザの欲求に対処するために、中心的な段階を採っている。
心理学における歴史的焦点である感情の理論とは異なり、感情モデルは記述的な道具である。
この研究は、社会ロボティクス、人間と機械の相互作用、メンタルヘルスケア、計算心理学に幅広い影響を及ぼす。
論文 参考訳(メタデータ) (2022-06-15T15:21:30Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z) - ProxEmo: Gait-based Emotion Learning and Multi-view Proxemic Fusion for
Socially-Aware Robot Navigation [65.11858854040543]
本稿では,歩行者間のロボットナビゲーションのための感情予測アルゴリズムProxEmoを提案する。
提案手法は歩行歩行から歩行者の知覚された感情を予測し,感情誘導ナビゲーションに使用する。
論文 参考訳(メタデータ) (2020-03-02T17:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。