論文の概要: Does Conceptual Representation Require Embodiment? Insights From Large
Language Models
- arxiv url: http://arxiv.org/abs/2305.19103v2
- Date: Tue, 28 Nov 2023 21:18:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 03:49:15.173378
- Title: Does Conceptual Representation Require Embodiment? Insights From Large
Language Models
- Title(参考訳): 概念表現は身体を必要とするか?
大規模言語モデルからの洞察
- Authors: Qihui Xu, Yingying Peng, Minghua Wu, Feng Xiao, Martin Chodorow, and
Ping Li
- Abstract要約: ヒトとChatGPT(GPT-3.5およびGPT-4)の4,442の語彙概念の表現の比較
2) GPT-4 は GPT-3.5 よりも優れており,GPT-4 の利得は付加的な視覚学習と結びついており,触覚やイメージ容易性などの関連性にも寄与すると考えられる。
- 参考スコア(独自算出の注目度): 12.524570969363934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To what extent can language alone give rise to complex concepts, or is
embodied experience essential? Recent advancements in large language models
(LLMs) offer fresh perspectives on this question. Although LLMs are trained on
restricted modalities, they exhibit human-like performance in diverse
psychological tasks. Our study compared representations of 4,442 lexical
concepts between humans and ChatGPTs (GPT-3.5 and GPT-4) across multiple
dimensions, including five key domains: emotion, salience, mental
visualization, sensory, and motor experience. We identify two main findings: 1)
Both models strongly align with human representations in non-sensorimotor
domains but lag in sensory and motor areas, with GPT-4 outperforming GPT-3.5;
2) GPT-4's gains are associated with its additional visual learning, which also
appears to benefit related dimensions like haptics and imageability. These
results highlight the limitations of language in isolation, and that the
integration of diverse modalities of inputs leads to a more human-like
conceptual representation.
- Abstract(参考訳): 言語だけが複雑な概念をもたらすのか、それとも具体的経験が不可欠か?
大規模言語モデル(LLM)の最近の進歩は、この問題に新たな視点を与えている。
LLMは制限されたモダリティに基づいて訓練されているが、様々な心理的タスクにおいて人間のようなパフォーマンスを示す。
ヒトとチャットgpts(gpt-3.5とgpt-4)の4,442種類の語彙概念の表現を,感情,敬礼,精神的可視化,感覚,運動経験という5つの重要な領域を含む多次元で比較した。
主な発見は2つあります
1) 両モデルとも非感性運動野ではヒトの表現と強く一致しているが, 感覚野や運動野では遅延がみられ, GPT-4はGPT-3.5より優れていた。
2) GPT-4の利得は付加的な視覚学習と結びついており, 触覚やイメージ可能性といった関連次元にも寄与すると考えられる。
これらの結果は、孤立した言語の制限を強調し、入力の多様なモダリティの統合は、より人間的な概念表現につながる。
関連論文リスト
- MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。
我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。
第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。
第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文 参考訳(メタデータ) (2024-07-11T02:14:06Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - Exploring Spatial Schema Intuitions in Large Language and Vision Models [8.944921398608063]
大規模言語モデル(LLM)が言語ブロック構築に関する暗黙の人間の直感を効果的に捉えているかどうかを検討する。
驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。
本研究は,大規模言語モデルによる言語,空間経験,計算間の相互作用の微妙な理解に寄与する。
論文 参考訳(メタデータ) (2024-02-01T19:25:50Z) - Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication [68.40865217231695]
本研究は,ヒト型絵文字の複製におけるGPT-4Vの挙動について検討した。
この結果は、人間の解釈の主観的な性質から、人間とGPT-4Vの行動に明確な相違があることを示唆している。
論文 参考訳(メタデータ) (2024-01-16T08:56:52Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - What's Next in Affective Modeling? Large Language Models [3.0902630634005797]
GPT-4は複数の感情タスクでうまく機能する。
感情理論を区別し、感情的な物語を思いつくことができる。
我々は、LLMが感情モデリングにおいて重要な役割を果たすことを示唆している。
論文 参考訳(メタデータ) (2023-10-03T16:39:20Z) - Fine-grained Affective Processing Capabilities Emerging from Large
Language Models [7.17010996725842]
本稿では,ChatGPTのゼロショット機能について,プロンプトのみを用いて情緒的な計算処理を行う方法について検討する。
b) 感情カテゴリーの観点で意味のある感情表現を持ち, c) 状況の基本的な評価に基づく感情誘発を行うことができることを示す。
論文 参考訳(メタデータ) (2023-09-04T15:32:47Z) - Large language models predict human sensory judgments across six
modalities [12.914521751805658]
我々は、現在最先端の大規模言語モデルが、知覚世界を言語から回復する問題に対する新たな洞察を解き放つことができることを示す。
我々は、6つの精神物理学的データセットにわたるGPTモデルからペアワイズ類似性判定を導出する。
これらの判断は, 色輪やピッチスパイラルなどのよく知られた表現を復元し, 全領域にわたる人的データと有意な相関関係を示す。
論文 参考訳(メタデータ) (2023-02-02T18:32:46Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。