論文の概要: Exploring Multimodal Perception in Large Language Models Through Perceptual Strength Ratings
- arxiv url: http://arxiv.org/abs/2503.06980v1
- Date: Mon, 10 Mar 2025 06:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:56.791099
- Title: Exploring Multimodal Perception in Large Language Models Through Perceptual Strength Ratings
- Title(参考訳): 知覚力評価による大規模言語モデルにおけるマルチモーダル知覚の探索
- Authors: Jonghyun Lee, Dojun Park, Jiwoo Lee, Hoekeon Choi, Sung-Eun Lee,
- Abstract要約: 本研究は, GPT-3.5, GPT-4o, GPT-4o, GPT-4o-miniを比較し, 接地および言語的推論に対するマルチモーダル入力の影響を強調した。
GPT-4 と GPT-4o は、人間による評価と、より小さなモデルに対する顕著な進歩を示す。
GPT-4oはGPT-4よりも優れた接地率を示しなかった。
- 参考スコア(独自算出の注目度): 2.539879170527831
- License:
- Abstract: This study investigated the multimodal perception of large language models (LLMs), focusing on their ability to capture human-like perceptual strength ratings across sensory modalities. Utilizing perceptual strength ratings as a benchmark, the research compared GPT-3.5, GPT-4, GPT-4o, and GPT-4o-mini, highlighting the influence of multimodal inputs on grounding and linguistic reasoning. While GPT-4 and GPT-4o demonstrated strong alignment with human evaluations and significant advancements over smaller models, qualitative analyses revealed distinct differences in processing patterns, such as multisensory overrating and reliance on loose semantic associations. Despite integrating multimodal capabilities, GPT-4o did not exhibit superior grounding compared to GPT-4, raising questions about their role in improving human-like grounding. These findings underscore how LLMs' reliance on linguistic patterns can both approximate and diverge from human embodied cognition, revealing limitations in replicating sensory experiences.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)のマルチモーダル知覚について検討し,知覚的モダリティにまたがる人間の知覚的強度評価を捉える能力に着目した。
GPT-3.5, GPT-4, GPT-4o, GPT-4o-miniを基準として, マルチモーダル入力が接地や言語的推論に与える影響を調べた。
GPT-4 と GPT-4o は、人間による評価と、より小さなモデルに対する顕著な進歩を強く示す一方で、質的分析により、多感的重み付けやゆるやかなセマンティックアソシエーションへの依存など、処理パターンの相違が明らかとなった。
マルチモーダル機能の統合にもかかわらず、GPT-4oはGPT-4よりも優れた接地を示さなかった。
これらの知見は、LLMが言語パターンに依存していることが、人間の具体的認知からどのように逸脱し、感覚経験の複製に制限があることを明らかにする。
関連論文リスト
- Investigating Large Language Models in Inferring Personality Traits from User Conversations [5.705775078773656]
大規模言語モデル(LLM)は、多様なドメインにまたがる目覚ましい人間のような能力を示している。
本研究は, GPT-4o と GPT-4o mini が, ビッグファイブの性格特性を推測し, ユーザの会話から BFI-10 項目のスコアを生成できるかどうかを評価する。
論文 参考訳(メタデータ) (2025-01-13T18:09:58Z) - From Text to Emotion: Unveiling the Emotion Annotation Capabilities of LLMs [12.199629860735195]
我々は、GPT4と教師付きモデルと、人間のアノテーションとの一致、人間の知覚の一致、モデルトレーニングへの影響の3つの側面を比較した。
GPT-4の性能を過小評価する上で,人間アノテーションを基本事実として利用する一般的な指標が有効であることがわかった。
論文 参考訳(メタデータ) (2024-08-30T05:50:15Z) - Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency [3.161954199291541]
本研究は, GPT-4oの言語, 視覚, 音声, マルチモーダル能力を包括的に評価する。
GPT-4oは、言語と推論能力において、複数のドメインにわたる高い精度と効率を示す。
モデルは可変性を示し、複雑であいまいな入力を扱う際の制限に直面している。
論文 参考訳(メタデータ) (2024-06-19T19:00:21Z) - Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication [68.40865217231695]
本研究は,ヒト型絵文字の複製におけるGPT-4Vの挙動について検討した。
この結果は、人間の解釈の主観的な性質から、人間とGPT-4Vの行動に明確な相違があることを示唆している。
論文 参考訳(メタデータ) (2024-01-16T08:56:52Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - GPT-4 Surpassing Human Performance in Linguistic Pragmatics [0.0]
本研究では,Large Language Models (LLMs) の言語プラグマティクスの理解と解釈能力について検討した。
Grice のコミュニケーション原理を用いて,LLM とヒトの被験者を対話型タスクに対する応答に基づいて評価した。
以上の結果より, LLM, 特にGPT4は, 実用的解釈において, 人体よりも優れていた。
論文 参考訳(メタデータ) (2023-12-15T05:40:15Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。
本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。
以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文 参考訳(メタデータ) (2023-08-01T01:39:25Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Does Conceptual Representation Require Embodiment? Insights From Large
Language Models [9.390117546307042]
ヒトとChatGPT(GPT-3.5およびGPT-4)の4,442の語彙概念の表現の比較
2) GPT-4 は GPT-3.5 よりも優れており,GPT-4 の利得は付加的な視覚学習と結びついており,触覚やイメージ容易性などの関連性にも寄与すると考えられる。
論文 参考訳(メタデータ) (2023-05-30T15:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。