論文の概要: Does Conceptual Representation Require Embodiment? Insights From Large
Language Models
- arxiv url: http://arxiv.org/abs/2305.19103v1
- Date: Tue, 30 May 2023 15:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 15:46:28.623705
- Title: Does Conceptual Representation Require Embodiment? Insights From Large
Language Models
- Title(参考訳): 概念表現は身体を必要とするか?
大規模言語モデルからの洞察
- Authors: Qihui Xu, Yingying Peng, Minghua Wu, Feng Xiao, Martin Chodorow, and
Ping Li
- Abstract要約: GPT-3.5とGPT-4は感情やサリエンスなどの抽象的な次元において人間と強く相関していた。
GPT-4は、足/脚、口/ズボン、胴体などの概念知識の運動面を完全に捉えるのに苦労している。
本研究は, 造形言語と認知における具体的経験の潜在的影響を明らかにするものである。
- 参考スコア(独自算出の注目度): 15.293770163735873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLM) have the potential to shed
light on the debate regarding the extent to which knowledge representation
requires the grounding of embodied experience. Despite learning from limited
modalities (e.g., text for GPT-3.5, and text+image for GPT-4), LLMs have
nevertheless demonstrated human-like behaviors in various psychology tasks,
which may provide an alternative interpretation of the acquisition of
conceptual knowledge. We compared lexical conceptual representations between
humans and ChatGPT (GPT-3.5 and GPT-4) on subjective ratings of various lexical
conceptual features or dimensions (e.g., emotional arousal, concreteness,
haptic, etc.). The results show that both GPT-3.5 and GPT-4 were strongly
correlated with humans in some abstract dimensions, such as emotion and
salience. In dimensions related to sensory and motor domains, GPT-3.5 shows
weaker correlations while GPT-4 has made significant progress compared to
GPT-3.5. Still, GPT-4 struggles to fully capture motor aspects of conceptual
knowledge such as actions with foot/leg, mouth/throat, and torso. Moreover, we
found that GPT-4's progress can largely be associated with its training in the
visual domain. Certain aspects of conceptual representation appear to exhibit a
degree of independence from sensory capacities, but others seem to necessitate
them. Our findings provide insights into the complexities of knowledge
representation from diverse perspectives and highlights the potential influence
of embodied experience in shaping language and cognition.
- Abstract(参考訳): 大規模言語モデル(llm)の最近の進歩は、知識表現が具体的経験の基盤を必要とする程度に関する議論に光を当てる可能性がある。
限られたモダリティ(例えば GPT-3.5 のテキストと GPT-4 のテキスト+イメージ)から学ぶにもかかわらず、LLM は様々な心理学的タスクにおいて人間のような振る舞いを実証し、概念的知識の獲得の代替解釈を提供する。
ヒトとChatGPT(GPT-3.5, GPT-4)の語彙的概念表現を,様々な語彙的概念的特徴や次元(感情的覚醒,具体性,触覚など)の主観的評価と比較した。
その結果、GPT-3.5とGPT-4は、感情やサリエンスなどの抽象的な次元において人間と強く相関していた。
GPT-3.5ではGPT-4はGPT-3.5に比べて有意に進行した。
それでもgpt-4は、足/足、口/足、胴体などの概念知識の運動面を完全に捉えるのに苦労している。
さらに, GPT-4の進歩は視覚領域でのトレーニングと大きく関連していることがわかった。
概念表現の特定の側面は感覚能力からある程度独立しているように見えるが、それらを必要とするものもいる。
本研究は,多様な視点から知識表現の複雑さを考察し,言語形成や認知における具体的経験の潜在的影響を明らかにする。
関連論文リスト
- Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。
我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。
第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。
第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文 参考訳(メタデータ) (2024-07-11T02:14:06Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - Exploring Spatial Schema Intuitions in Large Language and Vision Models [8.944921398608063]
大規模言語モデル(LLM)が言語ブロック構築に関する暗黙の人間の直感を効果的に捉えているかどうかを検討する。
驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。
本研究は,大規模言語モデルによる言語,空間経験,計算間の相互作用の微妙な理解に寄与する。
論文 参考訳(メタデータ) (2024-02-01T19:25:50Z) - Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication [68.40865217231695]
本研究は,ヒト型絵文字の複製におけるGPT-4Vの挙動について検討した。
この結果は、人間の解釈の主観的な性質から、人間とGPT-4Vの行動に明確な相違があることを示唆している。
論文 参考訳(メタデータ) (2024-01-16T08:56:52Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - What's Next in Affective Modeling? Large Language Models [3.0902630634005797]
GPT-4は複数の感情タスクでうまく機能する。
感情理論を区別し、感情的な物語を思いつくことができる。
我々は、LLMが感情モデリングにおいて重要な役割を果たすことを示唆している。
論文 参考訳(メタデータ) (2023-10-03T16:39:20Z) - Fine-grained Affective Processing Capabilities Emerging from Large
Language Models [7.17010996725842]
本稿では,ChatGPTのゼロショット機能について,プロンプトのみを用いて情緒的な計算処理を行う方法について検討する。
b) 感情カテゴリーの観点で意味のある感情表現を持ち, c) 状況の基本的な評価に基づく感情誘発を行うことができることを示す。
論文 参考訳(メタデータ) (2023-09-04T15:32:47Z) - Large language models predict human sensory judgments across six
modalities [12.914521751805658]
我々は、現在最先端の大規模言語モデルが、知覚世界を言語から回復する問題に対する新たな洞察を解き放つことができることを示す。
我々は、6つの精神物理学的データセットにわたるGPTモデルからペアワイズ類似性判定を導出する。
これらの判断は, 色輪やピッチスパイラルなどのよく知られた表現を復元し, 全領域にわたる人的データと有意な相関関係を示す。
論文 参考訳(メタデータ) (2023-02-02T18:32:46Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Imagination-Augmented Natural Language Understanding [71.51687221130925]
自然言語理解タスクを解決するために,Imagination-Augmented Cross-modal (iACE)を導入する。
iACEは、強力な生成的および事前訓練された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの実験は、iACEが視覚的に教師付き事前訓練されたモデルよりも一貫した改善を達成していることを示している。
論文 参考訳(メタデータ) (2022-04-18T19:39:36Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。