論文の概要: Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication
- arxiv url: http://arxiv.org/abs/2401.08212v2
- Date: Mon, 15 Apr 2024 12:08:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 22:38:10.039491
- Title: Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication
- Title(参考訳): 人間対LMM:デジタルコミュニケーションにおける絵文字解釈と利用の相違を探る
- Authors: Hanjia Lyu, Weihong Qi, Zhongyu Wei, Jiebo Luo,
- Abstract要約: 本研究は,ヒト型絵文字の複製におけるGPT-4Vの挙動について検討した。
この結果は、人間の解釈の主観的な性質から、人間とGPT-4Vの行動に明確な相違があることを示唆している。
- 参考スコア(独自算出の注目度): 68.40865217231695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging Large Multimodal Models (LMMs) to simulate human behaviors when processing multimodal information, especially in the context of social media, has garnered immense interest due to its broad potential and far-reaching implications. Emojis, as one of the most unique aspects of digital communication, are pivotal in enriching and often clarifying the emotional and tonal dimensions. Yet, there is a notable gap in understanding how these advanced models, such as GPT-4V, interpret and employ emojis in the nuanced context of online interaction. This study intends to bridge this gap by examining the behavior of GPT-4V in replicating human-like use of emojis. The findings reveal a discernible discrepancy between human and GPT-4V behaviors, likely due to the subjective nature of human interpretation and the limitations of GPT-4V's English-centric training, suggesting cultural biases and inadequate representation of non-English cultures.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)を利用して、特にソーシャルメディアの文脈において、多モーダル情報を処理する際の人間の振る舞いをシミュレートしている。
デジタルコミュニケーションの最もユニークな側面の1つである絵文字は、感情的次元と声調次元を豊かにし、しばしば明確化する上で重要な要素である。
しかし、これらの高度なモデル、例えばGPT-4Vは、オンラインインタラクションの微妙な文脈において、絵文字を解釈し、採用する方法を理解する上で、顕著なギャップがある。
本研究は,人型絵文字の複製におけるGPT-4Vの挙動を調べることによって,このギャップを埋めることを目的とする。
この結果は、人間の解釈の主観的性質とGPT-4Vの英語中心の訓練の限界により、人間とGPT-4Vの行動に明確な相違があることを示し、非英語文化の文化的偏見と不十分な表現を示唆している。
関連論文リスト
- GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing [74.68232970965595]
MLLM(Multimodal large language model)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理し、統合するように設計されている。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMLLMの適用性を評価する。
論文 参考訳(メタデータ) (2024-03-09T13:56:25Z) - Are Human Conversations Special? A Large Language Model Perspective [8.623471682333964]
本研究では、人間(人間)の自然な会話を理解するために、大規模言語モデル(LLM)の注意機構の変化を分析する。
その結果,言語モデルはドメイン固有の注意行動を示すが,人間の会話を専門化する能力には大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-03-08T04:44:25Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in
Large Multimodal Models [101.16192912740595]
本稿では、文脈に敏感なテキストリッチな視覚的推論を行うLMMの能力を評価するための新しいベンチマークであるConTextualを紹介する。
LMM, GPT-4V(ision), 人体能力の30.8%に有意な差が認められた。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - GPT-4V(ision) as A Social Media Analysis Engine [77.23394183063238]
本稿では,GPT-4Vのソーシャルマルチメディア分析能力について考察する。
我々は、感情分析、ヘイトスピーチ検出、フェイクニュース識別、人口推定、政治的イデオロギー検出を含む5つの代表的なタスクを選択する。
GPT-4Vはこれらのタスクにおいて顕著な効果を示し、画像とテキストのペアの理解、文脈と文化の認識、広義のコモンセンス知識などの強みを示している。
論文 参考訳(メタデータ) (2023-11-13T18:36:50Z) - Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。
偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。
干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文 参考訳(メタデータ) (2023-11-06T17:26:59Z) - Fine-grained Affective Processing Capabilities Emerging from Large
Language Models [7.17010996725842]
本稿では,ChatGPTのゼロショット機能について,プロンプトのみを用いて情緒的な計算処理を行う方法について検討する。
b) 感情カテゴリーの観点で意味のある感情表現を持ち, c) 状況の基本的な評価に基づく感情誘発を行うことができることを示す。
論文 参考訳(メタデータ) (2023-09-04T15:32:47Z) - Does Conceptual Representation Require Embodiment? Insights From Large
Language Models [9.390117546307042]
ヒトとChatGPT(GPT-3.5およびGPT-4)の4,442の語彙概念の表現の比較
2) GPT-4 は GPT-3.5 よりも優れており,GPT-4 の利得は付加的な視覚学習と結びついており,触覚やイメージ容易性などの関連性にも寄与すると考えられる。
論文 参考訳(メタデータ) (2023-05-30T15:06:28Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - Large language models predict human sensory judgments across six
modalities [12.914521751805658]
我々は、現在最先端の大規模言語モデルが、知覚世界を言語から回復する問題に対する新たな洞察を解き放つことができることを示す。
我々は、6つの精神物理学的データセットにわたるGPTモデルからペアワイズ類似性判定を導出する。
これらの判断は, 色輪やピッチスパイラルなどのよく知られた表現を復元し, 全領域にわたる人的データと有意な相関関係を示す。
論文 参考訳(メタデータ) (2023-02-02T18:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。