論文の概要: Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication
- arxiv url: http://arxiv.org/abs/2401.08212v2
- Date: Mon, 15 Apr 2024 12:08:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 22:38:10.039491
- Title: Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication
- Title(参考訳): 人間対LMM:デジタルコミュニケーションにおける絵文字解釈と利用の相違を探る
- Authors: Hanjia Lyu, Weihong Qi, Zhongyu Wei, Jiebo Luo,
- Abstract要約: 本研究は,ヒト型絵文字の複製におけるGPT-4Vの挙動について検討した。
この結果は、人間の解釈の主観的な性質から、人間とGPT-4Vの行動に明確な相違があることを示唆している。
- 参考スコア(独自算出の注目度): 68.40865217231695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging Large Multimodal Models (LMMs) to simulate human behaviors when processing multimodal information, especially in the context of social media, has garnered immense interest due to its broad potential and far-reaching implications. Emojis, as one of the most unique aspects of digital communication, are pivotal in enriching and often clarifying the emotional and tonal dimensions. Yet, there is a notable gap in understanding how these advanced models, such as GPT-4V, interpret and employ emojis in the nuanced context of online interaction. This study intends to bridge this gap by examining the behavior of GPT-4V in replicating human-like use of emojis. The findings reveal a discernible discrepancy between human and GPT-4V behaviors, likely due to the subjective nature of human interpretation and the limitations of GPT-4V's English-centric training, suggesting cultural biases and inadequate representation of non-English cultures.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)を利用して、特にソーシャルメディアの文脈において、多モーダル情報を処理する際の人間の振る舞いをシミュレートしている。
デジタルコミュニケーションの最もユニークな側面の1つである絵文字は、感情的次元と声調次元を豊かにし、しばしば明確化する上で重要な要素である。
しかし、これらの高度なモデル、例えばGPT-4Vは、オンラインインタラクションの微妙な文脈において、絵文字を解釈し、採用する方法を理解する上で、顕著なギャップがある。
本研究は,人型絵文字の複製におけるGPT-4Vの挙動を調べることによって,このギャップを埋めることを目的とする。
この結果は、人間の解釈の主観的性質とGPT-4Vの英語中心の訓練の限界により、人間とGPT-4Vの行動に明確な相違があることを示し、非英語文化の文化的偏見と不十分な表現を示唆している。
関連論文リスト
- Irony in Emojis: A Comparative Study of Human and LLM Interpretation [53.66354612549173]
本研究は,GPT-4oが絵文字の皮肉を解釈する能力について検討した。
GPT-4oは、ソーシャルメディア上での皮肉表現に使用される特定の絵文字の可能性を評価することによって、機械と人間の理解のギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2025-01-20T03:02:00Z) - Rethinking Emotion Annotations in the Era of Large Language Models [8.701939656132973]
大規模言語モデル(LLM)の文脈における感情アノテーションの複雑さを解析する。
実験では, GPT-4は人間の評価において高い評価を達成し, 前作よりも肯定的な絵を描いている。
ヒトの視点を保ちながらGPT-4の強さを活用するために,感情アノテーションパイプラインにGPT-4を統合する2つの方法を検討する。
論文 参考訳(メタデータ) (2024-12-10T20:30:51Z) - MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - From Text to Emotion: Unveiling the Emotion Annotation Capabilities of LLMs [12.199629860735195]
我々は、GPT4と教師付きモデルと、人間のアノテーションとの一致、人間の知覚の一致、モデルトレーニングへの影響の3つの側面を比較した。
GPT-4の性能を過小評価する上で,人間アノテーションを基本事実として利用する一般的な指標が有効であることがわかった。
論文 参考訳(メタデータ) (2024-08-30T05:50:15Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - GPT-4V(ision) as A Social Media Analysis Engine [77.23394183063238]
本稿では,GPT-4Vのソーシャルマルチメディア分析能力について考察する。
我々は、感情分析、ヘイトスピーチ検出、フェイクニュース識別、人口推定、政治的イデオロギー検出を含む5つの代表的なタスクを選択する。
GPT-4Vはこれらのタスクにおいて顕著な効果を示し、画像とテキストのペアの理解、文脈と文化の認識、広義のコモンセンス知識などの強みを示している。
論文 参考訳(メタデータ) (2023-11-13T18:36:50Z) - Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。
偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。
干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文 参考訳(メタデータ) (2023-11-06T17:26:59Z) - Does Conceptual Representation Require Embodiment? Insights From Large
Language Models [9.390117546307042]
ヒトとChatGPT(GPT-3.5およびGPT-4)の4,442の語彙概念の表現の比較
2) GPT-4 は GPT-3.5 よりも優れており,GPT-4 の利得は付加的な視覚学習と結びついており,触覚やイメージ容易性などの関連性にも寄与すると考えられる。
論文 参考訳(メタデータ) (2023-05-30T15:06:28Z) - Large language models predict human sensory judgments across six
modalities [12.914521751805658]
我々は、現在最先端の大規模言語モデルが、知覚世界を言語から回復する問題に対する新たな洞察を解き放つことができることを示す。
我々は、6つの精神物理学的データセットにわたるGPTモデルからペアワイズ類似性判定を導出する。
これらの判断は, 色輪やピッチスパイラルなどのよく知られた表現を復元し, 全領域にわたる人的データと有意な相関関係を示す。
論文 参考訳(メタデータ) (2023-02-02T18:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。