論文の概要: Core Knowledge Deficits in Multi-Modal Language Models
- arxiv url: http://arxiv.org/abs/2410.10855v3
- Date: Sun, 09 Mar 2025 04:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:44:37.237859
- Title: Core Knowledge Deficits in Multi-Modal Language Models
- Title(参考訳): マルチモーダル言語モデルにおけるコア知識不足
- Authors: Yijiang Li, Qingying Gao, Tianwei Zhao, Bingyang Wang, Haoran Sun, Haiyun Lyu, Dezhi Luo, Hokin Deng,
- Abstract要約: そこで本研究では,幼少期からヒトに根本的知識が欠如していることから,欠陥が引き起こされるという仮説を考察する。
以上の結果から,早期に発達したコア能力のコア知識不足が明らかとなり,高い認知度で人間に匹敵する性能を示すモデルが得られた。
本稿では,MLLMがコア知識に真に前進しないことを示す評価手法であるConcept Hackingを紹介する。
- 参考スコア(独自算出の注目度): 8.461561516444261
- License:
- Abstract: While Multimodal Large Language Models (MLLMs) demonstrate impressive abilities over high level perception and reasoning, their robustness in the wild still lags behind humans and exhibits diminished efficacy on simple tasks that are intuitive for humans. We examine the hypothesis that these deficiencies stem from the absence of core knowledge, rudimentary cognitive abilities innate to humans from early childhood. To probe core knowledge representation in MLLMs, we draw from developmental cognitive sciences and develop a large-scale benchmark, CoreCognition dataset, encompassing 12 core cognitive concepts. We evaluate 219 models with 10 different prompts, leading to a total of 2409 data points for analysis. Our findings reveal core knowledge deficits in early developed core abilities while models demonstrate human comparable performance in high level cognition. Moreover, we find that low level abilities show little to no scaling, in stark contrast to high level abilities. Finally, we introduce an evaluation technique, Concept Hacking, through which we demonstrate that MLLMs do not genuinely advance toward core knowledge but instead rely on illusory understanding and shortcut learning as they scale. Website with this $\href{https://growing-ai-like-a-child.github.io/}{link}$.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、高いレベルの知覚と推論よりも印象的な能力を示すが、その頑健さは人間に遅れを取っており、人間にとって直感的な単純なタスクに対して効果が低下している。
これらの欠陥は、幼少期から人間に根本的知識、初歩的認知能力の欠如に起因するという仮説を考察する。
MLLMのコア知識表現を探索するため,発達認知科学から抽出し,12コア認知概念を含む大規模ベンチマークであるCoreCognitionデータセットを開発した。
10種類のプロンプトを持つ219のモデルを評価し,解析のための合計2409個のデータポイントを得た。
以上の結果から,早期に発達したコア能力のコア知識不足が明らかとなり,高い認知度で人間に匹敵する性能を示すモデルが得られた。
さらに,低レベルの能力は,高レベルの能力とは対照的に,スケーリングがほとんどないしは行われないことが判明した。
最後に,MLLMがコア知識を真に進めるのではなく,その規模を拡大する上で,イラストリーな理解とショートカット学習に頼っていることを実証する,概念ハック(Concept Hacking)という評価手法を導入する。
この$\href{https:// growing-ai-like-a-child.github.io/}{link}$
関連論文リスト
- Vision Language Models See What You Want but not What You See [9.268588981925234]
他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素である。
このような能力を持つ機械を浸透させることは、人間レベルの人工知能を構築するための重要なステップである。
視覚言語モデルにおける意図理解とレベル2視点抽出について検討した。
論文 参考訳(メタデータ) (2024-10-01T01:52:01Z) - CogLM: Tracking Cognitive Development of Large Language Models [20.138831477848615]
我々は、Piaget's Theory of Cognitive Developmentに基づくベンチマークCogLMを構築した。
CogLMは、20人以上の専門家によって作られた10の認知能力にまたがる1220の質問で構成されている。
先進的なLSMは、20歳の人間に匹敵する、人間のような認知能力を示している。
論文 参考訳(メタデータ) (2024-08-17T09:49:40Z) - M3GIA: A Cognition Inspired Multilingual and Multimodal General Intelligence Ability Benchmark [25.44666570272266]
我々は,MLLMの汎用知能を評価するために,認知駆動型多言語・多モーダルベンチマークを導入した。
我々は,知能のモデルであるキャッテル・ホルン・キャロル(CHC)に基づいて,5つの認知要因を同定した。
私たちは英語を超えて、中国語、フランス語、スペイン語、ポルトガル語、韓国語など、その人気に基づいて他の言語を包含しています。
論文 参考訳(メタデータ) (2024-06-08T04:07:09Z) - Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。
しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。
本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文 参考訳(メタデータ) (2024-05-09T12:58:22Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Structured, flexible, and robust: benchmarking and improving large
language models towards more human-like behavior in out-of-distribution
reasoning tasks [39.39138995087475]
言語単独で統計的パターンを学習することで、どの程度の人間的な思考を捉えることができるのかを問う。
本ベンチマークは2つの問題解決領域(計画と説明生成)を含み,一般化を必要とするように設計されている。
このベンチマークでは、人間はLSMよりもはるかに堅牢であることが分かりました。
論文 参考訳(メタデータ) (2022-05-11T18:14:33Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。