Fugu-MT 論文翻訳(概要): Does Conceptual Representation Require Embodiment? Insights From Large Language Models

論文の概要: Does Conceptual Representation Require Embodiment? Insights From Large Language Models

arxiv url: http://arxiv.org/abs/2305.19103v3
Date: Fri, 1 Dec 2023 13:25:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 18:30:53.536116
Title: Does Conceptual Representation Require Embodiment? Insights From Large Language Models
Title（参考訳）: 概念表現は身体を必要とするか? 大規模言語モデルからの洞察
Authors: Qihui Xu, Yingying Peng, Samuel A. Nastase, Martin Chodorow, Minghua Wu, and Ping Li
Abstract要約: ヒトとChatGPT(GPT-3.5およびGPT-4)の4,442の語彙概念の表現の比較 2) GPT-4 は GPT-3.5 よりも優れており,GPT-4 の利得は付加的な視覚学習と結びついており,触覚やイメージ容易性などの関連性にも寄与すると考えられる。
参考スコア（独自算出の注目度）: 9.390117546307042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To what extent can language alone give rise to complex concepts, or is embodied experience essential? Recent advancements in large language models (LLMs) offer fresh perspectives on this question. Although LLMs are trained on restricted modalities, they exhibit human-like performance in diverse psychological tasks. Our study compared representations of 4,442 lexical concepts between humans and ChatGPTs (GPT-3.5 and GPT-4) across multiple dimensions, including five key domains: emotion, salience, mental visualization, sensory, and motor experience. We identify two main findings: 1) Both models strongly align with human representations in non-sensorimotor domains but lag in sensory and motor areas, with GPT-4 outperforming GPT-3.5; 2) GPT-4's gains are associated with its additional visual learning, which also appears to benefit related dimensions like haptics and imageability. These results highlight the limitations of language in isolation, and that the integration of diverse modalities of inputs leads to a more human-like conceptual representation.
Abstract（参考訳）: 言語だけが複雑な概念をもたらすのか、それとも具体的経験が不可欠か? 大規模言語モデル(LLM)の最近の進歩は、この問題に新たな視点を与えている。 LLMは制限されたモダリティに基づいて訓練されているが、様々な心理的タスクにおいて人間のようなパフォーマンスを示す。ヒトとチャットgpts(gpt-3.5とgpt-4)の4,442種類の語彙概念の表現を,感情,敬礼,精神的可視化,感覚,運動経験という5つの重要な領域を含む多次元で比較した。主な発見は2つあります 1) 両モデルとも非感性運動野ではヒトの表現と強く一致しているが, 感覚野や運動野では遅延がみられ, GPT-4はGPT-3.5より優れていた。 2) GPT-4の利得は付加的な視覚学習と結びついており, 触覚やイメージ可能性といった関連次元にも寄与すると考えられる。これらの結果は、孤立した言語の制限を強調し、入力の多様なモダリティの統合は、より人間的な概念表現につながる。

関連論文リスト

Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文参考訳（メタデータ） (2026-02-02T02:19:50Z)
KidVis: Do Multimodal Large Language Models Possess the Visual Perceptual Capabilities of a 6-Year-Old? [79.27736230305516]
人間の視覚発達理論に基づく新しいベンチマークであるKidVisを紹介する。人間の生理的ベースラインに対する20の最先端MLLMを評価すると、パフォーマンスの相違が明らかになる。この研究は、現在のMLLMは、彼らの推論能力にもかかわらず、一般化された視覚知能に必要な生理的知覚的プリミティブが欠如していることを確認する。
論文参考訳（メタデータ） (2026-01-13T07:32:50Z)
Does Visual Grounding Enhance the Understanding of Embodied Knowledge in Large Language Models? [5.726418224480853]
視覚言語モデル(VLM)は、どちらのタスクでもテキストのみのモデルより優れているわけではない。 VLMは、他の知覚次元と比較して視覚次元が著しく悪い。本研究は,マルチモーダル言語モデルにおけるエンボディド知識のより効果的な統合の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-10-19T16:43:04Z)
Visual Interestingness Decoded: How GPT-4o Mirrors Human Interests [4.297070083645049]
視覚的面白さの概念を理解するために,大規模マルチモーダルモデルの可能性を探る。本研究は, LMM である GPT-4o とヒトの部分的アライメントを明らかにする。この洞察は、人間の関心をより深く理解するための道を開く。
論文参考訳（メタデータ） (2025-10-15T09:04:48Z)
Human-MME: A Holistic Evaluation Benchmark for Human-Centric Multimodal Large Language Models [118.44328586173556]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて大きな進歩を見せている。 Human-MMEは、人間中心のシーン理解におけるMLLMのより総合的な評価を提供するために設計された、キュレートされたベンチマークである。我々のベンチマークは、単一対象の理解を多対多の相互理解に拡張する。
論文参考訳（メタデータ） (2025-09-30T12:20:57Z)
Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation [52.6091162517921]
INSIGHTは、エゴセントリックなアクション予測のための2段階のフレームワークである。最初の段階では、INSIGHTは手動オブジェクトの相互作用領域から意味的にリッチな特徴を抽出することに焦点を当てている。第2段階では、明示的な認知的推論をシミュレートする強化学習ベースのモジュールを導入する。
論文参考訳（メタデータ） (2025-08-03T12:52:27Z)
Exploring Multimodal Perception in Large Language Models Through Perceptual Strength Ratings [2.539879170527831]
本研究は, GPT-3.5, GPT-4o, GPT-4o, GPT-4o-miniを比較し, 接地および言語的推論に対するマルチモーダル入力の影響を強調した。 GPT-4 と GPT-4o は、人間による評価と、より小さなモデルに対する顕著な進歩を示す。 GPT-4oはGPT-4よりも優れた接地率を示しなかった。
論文参考訳（メタデータ） (2025-03-10T06:52:35Z)
How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文参考訳（メタデータ） (2025-03-01T03:35:56Z)
Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。 GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
Human-like conceptual representations emerge from language prediction [72.5875173689788]
大規模言語モデル(LLMs)は、言語データに対する次世代の予測を通じてのみ訓練され、顕著な人間的な振る舞いを示す。これらのモデルは、人間に似た概念を発達させ、もしそうなら、そのような概念はどのように表現され、組織化されるのか? 以上の結果から,LLMは言語記述から他の概念に関する文脈的手がかりに関して柔軟に概念を導出できることが示唆された。これらの結果は、構造化された人間のような概念表現が、現実世界の接地なしに言語予測から自然に現れることを証明している。
論文参考訳（メタデータ） (2025-01-21T23:54:17Z)
MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。 MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文参考訳（メタデータ） (2024-11-18T02:09:48Z)
Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文参考訳（メタデータ） (2024-07-11T02:14:06Z)
Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-05-14T23:24:12Z)
Exploring Spatial Schema Intuitions in Large Language and Vision Models [8.944921398608063]
大規模言語モデル(LLM)が言語ブロック構築に関する暗黙の人間の直感を効果的に捉えているかどうかを検討する。驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。本研究は,大規模言語モデルによる言語,空間経験,計算間の相互作用の微妙な理解に寄与する。
論文参考訳（メタデータ） (2024-02-01T19:25:50Z)
Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication [68.40865217231695]
本研究は,ヒト型絵文字の複製におけるGPT-4Vの挙動について検討した。この結果は、人間の解釈の主観的な性質から、人間とGPT-4Vの行動に明確な相違があることを示唆している。
論文参考訳（メタデータ） (2024-01-16T08:56:52Z)
Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。分析の核となるのは、各モデルの視覚的理解能力である。両モデルのユニークな強みとニッチを照らし出した。
論文参考訳（メタデータ） (2023-12-22T18:59:58Z)
What's Next in Affective Modeling? Large Language Models [3.0902630634005797]
GPT-4は複数の感情タスクでうまく機能する。感情理論を区別し、感情的な物語を思いつくことができる。我々は、LLMが感情モデリングにおいて重要な役割を果たすことを示唆している。
論文参考訳（メタデータ） (2023-10-03T16:39:20Z)
Fine-grained Affective Processing Capabilities Emerging from Large Language Models [7.17010996725842]
本稿では,ChatGPTのゼロショット機能について,プロンプトのみを用いて情緒的な計算処理を行う方法について検討する。 b) 感情カテゴリーの観点で意味のある感情表現を持ち, c) 状況の基本的な評価に基づく感情誘発を行うことができることを示す。
論文参考訳（メタデータ） (2023-09-04T15:32:47Z)
Large language models predict human sensory judgments across six modalities [12.914521751805658]
我々は、現在最先端の大規模言語モデルが、知覚世界を言語から回復する問題に対する新たな洞察を解き放つことができることを示す。我々は、6つの精神物理学的データセットにわたるGPTモデルからペアワイズ類似性判定を導出する。これらの判断は, 色輪やピッチスパイラルなどのよく知られた表現を復元し, 全領域にわたる人的データと有意な相関関係を示す。
論文参考訳（メタデータ） (2023-02-02T18:32:46Z)
DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。 DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-10-28T23:00:40Z)
Modality-Transferable Emotion Embeddings for Low-Resource Multimodal Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文参考訳（メタデータ） (2020-09-21T06:10:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。