論文の概要: CogDevelop2K: Reversed Cognitive Development in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2410.10855v1
- Date: Sun, 06 Oct 2024 20:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 09:41:12.557521
- Title: CogDevelop2K: Reversed Cognitive Development in Multimodal Large Language Models
- Title(参考訳): CogDevelop2K:マルチモーダル大規模言語モデルにおけるリバース認知開発
- Authors: Yijiang Li, Qingying Gao, Haoran Sun, Haiyun Lyu, Dezhi Luo, Hokin Deng,
- Abstract要約: 本稿では,人間の知能が生み出す中核的認知能力であるMLLMの基礎的基礎を解明し,理解し,理性について考察する。
オブジェクトの永続性やバウンダリといった基本的な知識から,理解などの高度な推論に至るまで,12のサブ概念にまたがる包括的なベンチマークであるCogDevelop2Kを提案する。
- 参考スコア(独自算出の注目度): 9.268588981925234
- License:
- Abstract: Are Multi-modal Large Language Models (MLLMs) stochastic parrots? Do they genuinely understand and are capable of performing the tasks they excel at? This paper aims to explore the fundamental basis of MLLMs, i.e. core cognitive abilities that human intelligence builds upon to perceive, comprehend, and reason. To this end, we propose CogDevelop2K, a comprehensive benchmark that spans 12 sub-concepts from fundamental knowledge like object permanence and boundary to advanced reasoning like intentionality understanding, structured via the developmental trajectory of a human mind. We evaluate 46 MLLMs on our benchmarks. Comprehensively, we further evaluate the influence of evaluation strategies and prompting techniques. Surprisingly, we observe a reversed cognitive developmental trajectory compared to humans.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は確率オウムか?
彼らは本当に理解していて、彼らが得意とするタスクを実行できますか?
本稿では,人間の知能が生み出す中核的認知能力であるMLLMの基礎的基礎を解明し,理解し,理性について考察する。
そこで本研究では,12のサブ概念を対象の永続性や境界といった基本的な知識から,人間の心の発達軌跡を通じて構造化された意図理解などの高度な推論まで,包括的ベンチマークであるCogDevelop2Kを提案する。
ベンチマークで46のMLLMを評価した。
総合的に評価戦略と促進技術の影響を更に評価する。
驚くべきことに、人間の認知発達の逆の軌跡を観察する。
関連論文リスト
- CogLM: Tracking Cognitive Development of Large Language Models [20.138831477848615]
我々は、Piaget's Theory of Cognitive Developmentに基づくベンチマークCogLMを構築した。
CogLMは、20人以上の専門家によって作られた10の認知能力にまたがる1220の質問で構成されている。
20歳児に匹敵する高度なLPM(GPT-4)にヒトのような認知能力が出現していることが判明した。
論文 参考訳(メタデータ) (2024-08-17T09:49:40Z) - M3GIA: A Cognition Inspired Multilingual and Multimodal General Intelligence Ability Benchmark [25.44666570272266]
我々は,MLLMの汎用知能を評価するために,認知駆動型多言語・多モーダルベンチマークを導入した。
我々は,知能のモデルであるキャッテル・ホルン・キャロル(CHC)に基づいて,5つの認知要因を同定した。
私たちは英語を超えて、中国語、フランス語、スペイン語、ポルトガル語、韓国語など、その人気に基づいて他の言語を包含しています。
論文 参考訳(メタデータ) (2024-06-08T04:07:09Z) - Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。
しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。
本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文 参考訳(メタデータ) (2024-05-09T12:58:22Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Structured, flexible, and robust: benchmarking and improving large
language models towards more human-like behavior in out-of-distribution
reasoning tasks [39.39138995087475]
言語単独で統計的パターンを学習することで、どの程度の人間的な思考を捉えることができるのかを問う。
本ベンチマークは2つの問題解決領域(計画と説明生成)を含み,一般化を必要とするように設計されている。
このベンチマークでは、人間はLSMよりもはるかに堅牢であることが分かりました。
論文 参考訳(メタデータ) (2022-05-11T18:14:33Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。