論文の概要: Human-like object concept representations emerge naturally in multimodal large language models
- arxiv url: http://arxiv.org/abs/2407.01067v1
- Date: Mon, 1 Jul 2024 08:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 22:29:17.286870
- Title: Human-like object concept representations emerge naturally in multimodal large language models
- Title(参考訳): マルチモーダル大言語モデルに自然に現れる人間のような物体概念表現
- Authors: Changde Du, Kaicheng Fu, Bincheng Wen, Yi Sun, Jie Peng, Wei Wei, Ying Gao, Shengpei Wang, Chuncheng Zhang, Jinpeng Li, Shuang Qiu, Le Chang, Huiguang He,
- Abstract要約: 大規模言語モデルにおける対象概念の表現が人間とどのように関連しているかを明らかにするために,行動解析と神経画像解析を併用した。
その結果,66次元の埋め込みは非常に安定で予測的であり,人間の心的表現に類似したセマンティッククラスタリングが認められた。
本研究は、機械知能の理解を深め、より人間的な人工知能システムの開発を知らせるものである。
- 参考スコア(独自算出の注目度): 24.003766123531545
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The conceptualization and categorization of natural objects in the human mind have long intrigued cognitive scientists and neuroscientists, offering crucial insights into human perception and cognition. Recently, the rapid development of Large Language Models (LLMs) has raised the attractive question of whether these models can also develop human-like object representations through exposure to vast amounts of linguistic and multimodal data. In this study, we combined behavioral and neuroimaging analysis methods to uncover how the object concept representations in LLMs correlate with those of humans. By collecting large-scale datasets of 4.7 million triplet judgments from LLM and Multimodal LLM (MLLM), we were able to derive low-dimensional embeddings that capture the underlying similarity structure of 1,854 natural objects. The resulting 66-dimensional embeddings were found to be highly stable and predictive, and exhibited semantic clustering akin to human mental representations. Interestingly, the interpretability of the dimensions underlying these embeddings suggests that LLM and MLLM have developed human-like conceptual representations of natural objects. Further analysis demonstrated strong alignment between the identified model embeddings and neural activity patterns in many functionally defined brain ROIs (e.g., EBA, PPA, RSC and FFA). This provides compelling evidence that the object representations in LLMs, while not identical to those in the human, share fundamental commonalities that reflect key schemas of human conceptual knowledge. This study advances our understanding of machine intelligence and informs the development of more human-like artificial cognitive systems.
- Abstract(参考訳): 人間の心における自然の物体の概念化と分類は、認知科学者や神経科学者に長年興味を持ち、人間の知覚と認知の重要な洞察を与えてきた。
近年,Large Language Models (LLMs) の急速な発展により,膨大な言語およびマルチモーダルデータに曝露することで,これらのモデルが人間のようなオブジェクト表現を開発できるかどうかという,魅力的な疑問が持ち上がっている。
本研究では、行動解析と神経画像解析を併用し、LLMにおける物体概念表現が人間のものとどのように相関するかを明らかにする。
LLMとMultimodal LLM(MLLM)から470万の3重項判定の大規模データセットを収集することにより、我々は1,854個の自然物体の基本的な類似性構造を捉えた低次元の埋め込みを導出することができた。
その結果,66次元の埋め込みは非常に安定で予測的であり,人間の心的表現に類似したセマンティッククラスタリングが認められた。
興味深いことに、これらの埋め込みの基礎となる次元の解釈可能性から、LLMとMLLMが自然物体の人間的な概念表現を開発したことが示唆されている。
さらに, 機能的に定義された多くの脳ROI(例えば, EBA, PPA, RSC, FFA)において, 同定されたモデル埋め込みと神経活動パターンとの間に強い相関が認められた。
これは、LLMのオブジェクト表現が人間と同一ではないが、人間の概念的知識の重要なスキーマを反映した基本的な共通点を共有しているという説得力のある証拠を提供する。
本研究は、機械知能の理解を深め、より人間的な人工知能システムの開発を知らせるものである。
関連論文リスト
- Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning [0.0]
大きな言語モデル(LLM)は、様々なタスクにまたがってその能力を実証している。
本稿では,LLMの推論と生成能力を利用して,2つの逐次意思決定タスクにおける人間の行動を予測する。
我々は,LLMの性能を,人間の経験的意思決定を模倣した認知的インスタンスベース学習モデルと比較した。
論文 参考訳(メタデータ) (2024-07-12T14:13:06Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル (LLM) のための可視化・オブ・ソート (VoT) を提案する。
VoTは、LLMの空間的推論を、それらの推論トレースを可視化することによって引き起こし、その後の推論ステップを導く。
自然言語ナビゲーションや視覚ナビゲーション,2次元グリッドの世界における視覚的タイリングなど,マルチホップ空間推論タスクにVoTを使用している。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - Comparing Rationality Between Large Language Models and Humans: Insights and Open Questions [6.201550639431176]
本稿では,大規模言語モデル(LLM)の急成長に焦点をあてる。
我々は,LLMの合理性と意思決定能力の増強において,人間フィードバックからの強化学習(RLHF)が果たす重要な役割を強調した。
論文 参考訳(メタデータ) (2024-03-14T18:36:04Z) - Human Simulacra: Benchmarking the Personification of Large Language Models [38.21708264569801]
大規模言語モデル(LLM)は、人間の知性の側面を忠実に模倣するシステムとして認識されている。
本稿では,仮想キャラクタのライフストーリーをゼロから構築するためのフレームワークを提案する。
実験により, 構築したシミュラクラは, 対象キャラクタと一致した擬人化応答を生成できることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:11:14Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Unveiling Theory of Mind in Large Language Models: A Parallel to Single
Neurons in the Human Brain [2.5350521110810056]
大きな言語モデル(LLM)は、あるレベルの心の理論(ToM)を示すことが発見されている。
LLMのToMの能力や人間との類似性に基づく正確なプロセスはほとんど不明である。
論文 参考訳(メタデータ) (2023-09-04T15:26:15Z) - Conceptual structure coheres in human cognition but not in large
language models [7.405352374343134]
概念構造は, 文化, 言語, 推定方法の違いに対して堅牢であることを示す。
結果は、現代の大言語モデルと人間の認知の間に重要な違いを浮き彫りにしている。
論文 参考訳(メタデータ) (2023-04-05T21:27:01Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。