論文の概要: Deciphering Emotions in Children Storybooks: A Comparative Analysis of Multimodal LLMs in Educational Applications
- arxiv url: http://arxiv.org/abs/2506.18201v1
- Date: Sun, 22 Jun 2025 23:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.803659
- Title: Deciphering Emotions in Children Storybooks: A Comparative Analysis of Multimodal LLMs in Educational Applications
- Title(参考訳): 児童ストーリーブックにおける感情の解読:教育応用におけるマルチモーダルLLMの比較分析
- Authors: Bushra Asseri, Estabraq Abdelaziz, Maha Al Mogren, Tayef Alhefdhi, Areej Al-Wabil,
- Abstract要約: 本研究は,アラビア語童話の挿絵処理において,GPT-4oとGemini 1.5 Proの2つの先進多モーダル大言語モデルの感情認識性能を評価するものである。
GPT-4oは、すべての条件で一貫してジェミニを上回り、最も高いマクロF1スコアが59%のチェーン・オブ・シークレット・プロンプトで達成された。
これらの知見は、現在のモデルにおける文化的理解の基本的な限界を強調し、文化的に敏感なトレーニングアプローチの必要性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion recognition capabilities in multimodal AI systems are crucial for developing culturally responsive educational technologies, yet remain underexplored for Arabic language contexts where culturally appropriate learning tools are critically needed. This study evaluates the emotion recognition performance of two advanced multimodal large language models, GPT-4o and Gemini 1.5 Pro, when processing Arabic children's storybook illustrations. We assessed both models across three prompting strategies (zero-shot, few-shot, and chain-of-thought) using 75 images from seven Arabic storybooks, comparing model predictions with human annotations based on Plutchik's emotional framework. GPT-4o consistently outperformed Gemini across all conditions, achieving the highest macro F1-score of 59% with chain-of-thought prompting compared to Gemini's best performance of 43%. Error analysis revealed systematic misclassification patterns, with valence inversions accounting for 60.7% of errors, while both models struggled with culturally nuanced emotions and ambiguous narrative contexts. These findings highlight fundamental limitations in current models' cultural understanding and emphasize the need for culturally sensitive training approaches to develop effective emotion-aware educational technologies for Arabic-speaking learners.
- Abstract(参考訳): マルチモーダルAIシステムにおける感情認識能力は、文化的にレスポンシブな教育技術の開発には不可欠であるが、文化的に適切な学習ツールが不可欠であるアラビア語の文脈では未解明のままである。
本研究は,アラビア語童話の挿絵処理において,GPT-4oとGemini 1.5 Proの2つの先進多モーダル大言語モデルの感情認識性能を評価するものである。
我々は、アラビアの7つのストーリーブックから75の画像を用いて、どちらのモデルも3つのプロンプト戦略(ゼロショット、少数ショット、チェーンオブ思想)で評価し、Plutchikの感情的な枠組みに基づいて、モデル予測と人間のアノテーションを比較した。
GPT-4oはジェミニを常に上回り、ジェミニの最高性能である43%に比べて59%のマクロF1スコアを達成した。
誤り分析によって体系的な誤分類パターンが明らかとなり、原子価の逆転が60.7%の誤りであるのに対し、どちらのモデルも文化的にニュアンスな感情や曖昧な物語の文脈に苦しんだ。
これらの知見は、現在のモデルにおける文化的理解の基本的な限界を強調し、アラビア語学習者のための効果的な感情認識教育技術を開発するために、文化的に敏感なトレーニングアプローチの必要性を強調している。
関連論文リスト
- From Guidelines to Practice: A New Paradigm for Arabic Language Model Evaluation [0.9393150323167235]
まず、既存のアラビア評価データセットを分析し、言語的正確性、文化的アライメント、方法論的厳密性において重要な課題を特定した。
アラビア語のDepth Miniデータセット(ADMD)は10のドメインにまたがる490の課題の集合である。
以上の結果から,文化的な理解と専門知識を必要とする分野において,様々な領域におけるモデル性能の顕著な変動が明らかとなった。
論文 参考訳(メタデータ) (2025-06-02T17:39:50Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - When 'YES' Meets 'BUT': Can Large Models Comprehend Contradictory Humor Through Comparative Reasoning? [17.647896474008597]
多様な多言語・多文化の文脈から1,262の漫画画像を用いた新しいベンチマークを導入する。
4つの相補的なタスクを通して、幅広い視覚言語モデルを体系的に評価する。
我々の実験では、最も先進的なモデルでさえ、人間に比べて著しく性能が劣っていることが判明した。
論文 参考訳(メタデータ) (2025-03-29T16:08:51Z) - CULEMO: Cultural Lenses on Emotion -- Benchmarking LLMs for Cross-Cultural Emotion Understanding [7.308914305652415]
カルチャー・レンズ・オン・エモーション (CuLEmo) は、6つの言語にまたがるカルチャー・アウェア・感情予測を評価するための最初のベンチマークである。
キュレモ語は言語ごとに400の工芸的な質問で構成されており、それぞれに微妙な文化的推論と理解が必要である。
このベンチマークを用いて、カルチャーを意識した感情予測と感情分析タスクにおける、最先端のLCMの評価を行う。
論文 参考訳(メタデータ) (2025-03-12T01:01:30Z) - MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。