論文の概要: Core Knowledge Deficits in Multi-Modal Language Models
- arxiv url: http://arxiv.org/abs/2410.10855v3
- Date: Sun, 09 Mar 2025 04:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:04.67867
- Title: Core Knowledge Deficits in Multi-Modal Language Models
- Title(参考訳): マルチモーダル言語モデルにおけるコア知識不足
- Authors: Yijiang Li, Qingying Gao, Tianwei Zhao, Bingyang Wang, Haoran Sun, Haiyun Lyu, Dezhi Luo, Hokin Deng,
- Abstract要約: そこで本研究では,幼少期からヒトに根本的知識が欠如していることから,欠陥が引き起こされるという仮説を考察する。
以上の結果から,早期に発達したコア能力のコア知識不足が明らかとなり,高い認知度で人間に匹敵する性能を示すモデルが得られた。
本稿では,MLLMがコア知識に真に前進しないことを示す評価手法であるConcept Hackingを紹介する。
- 参考スコア(独自算出の注目度): 8.461561516444261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) demonstrate impressive abilities over high level perception and reasoning, their robustness in the wild still lags behind humans and exhibits diminished efficacy on simple tasks that are intuitive for humans. We examine the hypothesis that these deficiencies stem from the absence of core knowledge, rudimentary cognitive abilities innate to humans from early childhood. To probe core knowledge representation in MLLMs, we draw from developmental cognitive sciences and develop a large-scale benchmark, CoreCognition dataset, encompassing 12 core cognitive concepts. We evaluate 219 models with 10 different prompts, leading to a total of 2409 data points for analysis. Our findings reveal core knowledge deficits in early developed core abilities while models demonstrate human comparable performance in high level cognition. Moreover, we find that low level abilities show little to no scaling, in stark contrast to high level abilities. Finally, we introduce an evaluation technique, Concept Hacking, through which we demonstrate that MLLMs do not genuinely advance toward core knowledge but instead rely on illusory understanding and shortcut learning as they scale. Website with this $\href{https://growing-ai-like-a-child.github.io/}{link}$.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、高いレベルの知覚と推論よりも印象的な能力を示すが、その頑健さは人間に遅れを取っており、人間にとって直感的な単純なタスクに対して効果が低下している。
これらの欠陥は、幼少期から人間に根本的知識、初歩的認知能力の欠如に起因するという仮説を考察する。
MLLMのコア知識表現を探索するため,発達認知科学から抽出し,12コア認知概念を含む大規模ベンチマークであるCoreCognitionデータセットを開発した。
10種類のプロンプトを持つ219のモデルを評価し,解析のための合計2409個のデータポイントを得た。
以上の結果から,早期に発達したコア能力のコア知識不足が明らかとなり,高い認知度で人間に匹敵する性能を示すモデルが得られた。
さらに,低レベルの能力は,高レベルの能力とは対照的に,スケーリングがほとんどないしは行われないことが判明した。
最後に,MLLMがコア知識を真に進めるのではなく,その規模を拡大する上で,イラストリーな理解とショートカット学習に頼っていることを実証する,概念ハック(Concept Hacking)という評価手法を導入する。
この$\href{https:// growing-ai-like-a-child.github.io/}{link}$
関連論文リスト
- Metacognition and Uncertainty Communication in Humans and Large Language Models [3.0493183668102293]
大規模言語モデル(LLM)は、高い意思決定コンテキストに組み込まれている。
メタ認知能力を示すかどうか、どのように、どの程度の程度で評価することが重要である。
ヒトとLDMはメタ認知能力と行動にかなり整合している場合もあるが、多くの相違点が残っていることは明らかである。
論文 参考訳(メタデータ) (2025-04-18T19:24:17Z) - How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。
以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。
最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文 参考訳(メタデータ) (2025-03-01T03:35:56Z) - The Philosophical Foundations of Growing AI Like A Child [0.0]
本稿では,人間と機械の認知発達の相違から生じる課題について論じる。
人間の中核知識の実証的な証拠を探究し、言語モデルがそれを取得できない理由を分析し、この制限は固有のアーキテクチャ上の制約ではないと主張する。
論文 参考訳(メタデータ) (2025-02-15T09:47:20Z) - Refine Knowledge of Large Language Models via Adaptive Contrastive Learning [54.61213933999464]
方法の主流は、大規模言語モデルの知識表現を最適化することで幻覚を減らすことである。
知識を精錬するモデルのプロセスは、人間の学習方法から大きな恩恵を受けることができると私たちは信じています。
人間の学習過程を模倣することで,適応的コントラスト学習戦略を設計する。
論文 参考訳(メタデータ) (2025-02-11T02:19:13Z) - Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。
効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。
私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文 参考訳(メタデータ) (2024-11-04T07:10:24Z) - Vision Language Models See What You Want but not What You See [9.268588981925234]
他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素である。
このような能力を持つ機械を浸透させることは、人間レベルの人工知能を構築するための重要なステップである。
視覚言語モデルにおける意図理解とレベル2視点抽出について検討した。
論文 参考訳(メタデータ) (2024-10-01T01:52:01Z) - CogLM: Tracking Cognitive Development of Large Language Models [20.138831477848615]
我々は、Piaget's Theory of Cognitive Developmentに基づくベンチマークCogLMを構築した。
CogLMは、20人以上の専門家によって作られた10の認知能力にまたがる1220の質問で構成されている。
20歳児に匹敵する高度なLPM(GPT-4)にヒトのような認知能力が出現していることが判明した。
論文 参考訳(メタデータ) (2024-08-17T09:49:40Z) - Development of Cognitive Intelligence in Pre-trained Language Models [3.1815791977708834]
近年の研究では、大規模事前学習言語モデルにおける創発的認知能力の証拠が示されている。
PLMの発達軌跡は、人間の認知発達に対する最大限の調整の窓を一貫して示している。
この窓のあと、トレーニングは損失を減らすという工学的な目標に役立っているように見えるが、人間の認知との整合性を高めるという科学的目標ではない。
論文 参考訳(メタデータ) (2024-07-01T07:56:36Z) - M3GIA: A Cognition Inspired Multilingual and Multimodal General Intelligence Ability Benchmark [25.44666570272266]
我々は,MLLMの汎用知能を評価するために,認知駆動型多言語・多モーダルベンチマークを導入した。
我々は,知能のモデルであるキャッテル・ホルン・キャロル(CHC)に基づいて,5つの認知要因を同定した。
私たちは英語を超えて、中国語、フランス語、スペイン語、ポルトガル語、韓国語など、その人気に基づいて他の言語を包含しています。
論文 参考訳(メタデータ) (2024-06-08T04:07:09Z) - Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。
しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。
本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文 参考訳(メタデータ) (2024-05-09T12:58:22Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Structured, flexible, and robust: benchmarking and improving large
language models towards more human-like behavior in out-of-distribution
reasoning tasks [39.39138995087475]
言語単独で統計的パターンを学習することで、どの程度の人間的な思考を捉えることができるのかを問う。
本ベンチマークは2つの問題解決領域(計画と説明生成)を含み,一般化を必要とするように設計されている。
このベンチマークでは、人間はLSMよりもはるかに堅牢であることが分かりました。
論文 参考訳(メタデータ) (2022-05-11T18:14:33Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。