論文の概要: Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and
Usage in Digital Communication
- arxiv url: http://arxiv.org/abs/2401.08212v1
- Date: Tue, 16 Jan 2024 08:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:36:23.344631
- Title: Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and
Usage in Digital Communication
- Title(参考訳): 人間対LMM:デジタルコミュニケーションにおける絵文字解釈と利用の相違を探る
- Authors: Hanjia Lyu, Weihong Qi, Zhongyu Wei, Jiebo Luo
- Abstract要約: 本研究は,ヒト型絵文字の複製におけるGPT-4Vの挙動について検討した。
この結果は、人間の解釈の主観的な性質から、人間とGPT-4Vの行動に明確な相違があることを示唆している。
- 参考スコア(独自算出の注目度): 74.73153805419201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging Large Multimodal Models (LMMs) to simulate human behaviors when
processing multimodal information, especially in the context of social media,
has garnered immense interest due to its broad potential and far-reaching
implications. Emojis, as one of the most unique aspects of digital
communication, are pivotal in enriching and often clarifying the emotional and
tonal dimensions. Yet, there is a notable gap in understanding how these
advanced models, such as GPT-4V, interpret and employ emojis in the nuanced
context of online interaction. This study intends to bridge this gap by
examining the behavior of GPT-4V in replicating human-like use of emojis. The
findings reveal a discernible discrepancy between human and GPT-4V behaviors,
likely due to the subjective nature of human interpretation and the limitations
of GPT-4V's English-centric training, suggesting cultural biases and inadequate
representation of non-English cultures.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)を利用して、特にソーシャルメディアの文脈において、多モーダル情報を処理する際の人間の行動をシミュレートしている。
デジタルコミュニケーションの最もユニークな側面の1つである絵文字は、感情的次元と声調次元を豊かにし、しばしば明確化する上で重要な要素である。
しかし、これらの高度なモデル、例えばgpt-4vは、オンラインインタラクションのニュアンスコンテキストにおける絵文字の解釈と採用の仕方には、注目すべきギャップがある。
本研究は,人型絵文字の複製におけるGPT-4Vの挙動を調べることによって,このギャップを埋めることを目的とする。
この結果は、人間の解釈の主観的性質とGPT-4Vの英語中心の訓練の限界により、人間とGPT-4Vの行動に明確な相違があることを示し、非英語文化の文化的偏見と不十分な表現を示唆している。
関連論文リスト
- MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - From Text to Emotion: Unveiling the Emotion Annotation Capabilities of LLMs [12.199629860735195]
我々は、GPT4と教師付きモデルと、人間のアノテーションとの一致、人間の知覚の一致、モデルトレーニングへの影響の3つの側面を比較した。
GPT-4の性能を過小評価する上で,人間アノテーションを基本事実として利用する一般的な指標が有効であることがわかった。
論文 参考訳(メタデータ) (2024-08-30T05:50:15Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - GPT-4V(ision) as A Social Media Analysis Engine [77.23394183063238]
本稿では,GPT-4Vのソーシャルマルチメディア分析能力について考察する。
我々は、感情分析、ヘイトスピーチ検出、フェイクニュース識別、人口推定、政治的イデオロギー検出を含む5つの代表的なタスクを選択する。
GPT-4Vはこれらのタスクにおいて顕著な効果を示し、画像とテキストのペアの理解、文脈と文化の認識、広義のコモンセンス知識などの強みを示している。
論文 参考訳(メタデータ) (2023-11-13T18:36:50Z) - Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。
偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。
干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文 参考訳(メタデータ) (2023-11-06T17:26:59Z) - Fine-grained Affective Processing Capabilities Emerging from Large
Language Models [7.17010996725842]
本稿では,ChatGPTのゼロショット機能について,プロンプトのみを用いて情緒的な計算処理を行う方法について検討する。
b) 感情カテゴリーの観点で意味のある感情表現を持ち, c) 状況の基本的な評価に基づく感情誘発を行うことができることを示す。
論文 参考訳(メタデータ) (2023-09-04T15:32:47Z) - Does Conceptual Representation Require Embodiment? Insights From Large
Language Models [9.390117546307042]
ヒトとChatGPT(GPT-3.5およびGPT-4)の4,442の語彙概念の表現の比較
2) GPT-4 は GPT-3.5 よりも優れており,GPT-4 の利得は付加的な視覚学習と結びついており,触覚やイメージ容易性などの関連性にも寄与すると考えられる。
論文 参考訳(メタデータ) (2023-05-30T15:06:28Z) - Large language models predict human sensory judgments across six
modalities [12.914521751805658]
我々は、現在最先端の大規模言語モデルが、知覚世界を言語から回復する問題に対する新たな洞察を解き放つことができることを示す。
我々は、6つの精神物理学的データセットにわたるGPTモデルからペアワイズ類似性判定を導出する。
これらの判断は, 色輪やピッチスパイラルなどのよく知られた表現を復元し, 全領域にわたる人的データと有意な相関関係を示す。
論文 参考訳(メタデータ) (2023-02-02T18:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。