論文の概要: A Framework for Robust Cognitive Evaluation of LLMs
- arxiv url: http://arxiv.org/abs/2504.02789v1
- Date: Thu, 03 Apr 2025 17:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 15:38:09.838076
- Title: A Framework for Robust Cognitive Evaluation of LLMs
- Title(参考訳): LLMのロバスト認知評価のためのフレームワーク
- Authors: Karin de Langis, Jong Inn Park, Bin Hu, Khanh Chi Le, Andreas Schramm, Michael C. Mensink, Andrew Elfenbein, Dongyeop Kang,
- Abstract要約: 大規模言語モデル(LLM)の創発的認知能力は広く観察されているが、その性質と基盤メカニズムはいまだによく分かっていない。
我々は,LLMの認知能力を体系的に評価するフレームワークであるCognitivEvalを開発した。
- 参考スコア(独自算出の注目度): 13.822169295436177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emergent cognitive abilities in large language models (LLMs) have been widely observed, but their nature and underlying mechanisms remain poorly understood. A growing body of research draws on cognitive science to investigate LLM cognition, but standard methodologies and experimen-tal pipelines have not yet been established. To address this gap we develop CognitivEval, a framework for systematically evaluating the artificial cognitive capabilities of LLMs, with a particular emphasis on robustness in response collection. The key features of CognitivEval include: (i) automatic prompt permutations, and (ii) testing that gathers both generations and model probability estimates. Our experiments demonstrate that these features lead to more robust experimental outcomes. Using CognitivEval, we replicate five classic experiments in cognitive science, illustrating the framework's generalizability across various experimental tasks and obtaining a cognitive profile of several state of the art LLMs. CognitivEval will be released publicly to foster broader collaboration within the cognitive science community.
- Abstract(参考訳): 大規模言語モデル(LLM)の創発的認知能力は広く観察されているが、その性質と基盤メカニズムはいまだによく分かっていない。
成長する研究機関は認知科学に焦点をあててLLM認知を研究するが、標準的な方法論や実験用パイプラインはまだ確立されていない。
このギャップに対処するため,我々は,LLMの人工認知能力を体系的に評価するフレームワークであるCognitivEvalを開発した。
CognitivEvalの主な特徴は以下のとおりである。
(i)自動プロンプト置換、及び
(ii)世代とモデル確率推定の両方を収集するテスト。
我々の実験は、これらの特徴がより堅牢な実験結果をもたらすことを示した。
我々はCognitivEvalを用いて、認知科学の古典的な5つの実験を再現し、様々な実験課題にまたがるフレームワークの一般化可能性を説明し、いくつかの最先端のLCMの認知プロファイルを得る。
CognitivEvalは、認知科学コミュニティ内でより広範なコラボレーションを促進するために、一般公開される。
関連論文リスト
- Unveiling the Learning Mind of Language Models: A Cognitive Framework and Empirical Study [50.065744358362345]
大規模言語モデル(LLM)は、数学、コーディング、推論といったタスクにまたがる印象的な機能を示している。
しかし、彼らの学習能力は、動的環境に適応し、新しい知識を得るのに不可欠であり、まだ過小評価されていない。
論文 参考訳(メタデータ) (2025-06-16T13:24:50Z) - Evaluating LLMs Across Multi-Cognitive Levels: From Medical Knowledge Mastery to Scenario-Based Problem Solving [18.815592287807394]
大規模言語モデル (LLM) は様々な医学ベンチマークで顕著な性能を示した。
しかし、その能力は様々な認知レベルにわたって過小評価されている。
医療領域におけるLCMの評価のための多認知レベル評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:07:33Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation [77.10390725623125]
検索強化世代(RAG)は知識範囲の拡大に広く利用されている。
RAGは、オープンドメインの質問応答のような知識集約的なタスクを約束しているので、複雑なタスクやインテリジェントアシスタントへの幅広い応用は、その実用性をさらに進歩させてきた。
本稿では、RAGが内部(パラメトリック)知識と外部(検索)知識を統合する本質的なメカニズムを体系的に検討する。
論文 参考訳(メタデータ) (2025-05-17T13:13:13Z) - How Metacognitive Architectures Remember Their Own Thoughts: A Systematic Review [16.35521789216079]
計算メタ認知アーキテクチャ(CMA)がどのようにしてメタ認知経験をモデル化し、保存し、記憶し、処理するかをレビューする。
基礎となる心理学理論から収集データの内容と構造、使用するアルゴリズムや評価結果まで、さまざまな側面を考察する。
論文 参考訳(メタデータ) (2025-02-28T08:48:41Z) - VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。
VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。
GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs [64.9693406713216]
RAGシステムの有効性に寄与する内部メカニズムは未解明のままである。
実験の結果,複数のコアグループの専門家がRAG関連行動に主に関与していることが判明した。
本稿では,専門家の活性化を通じてRAGの効率性と有効性を高めるためのいくつかの戦略を提案する。
論文 参考訳(メタデータ) (2024-10-20T16:08:54Z) - Mimicking Human Intuition: Cognitive Belief-Driven Reinforcement Learning [0.0]
認知的信念駆動型強化学習(CBD-RL)に着想を得た革新的枠組みを提案する。
CBD-RLは、従来の試行錯誤学習をより構造化され、ガイド付き学習パラダイムに変換し、人間の推論プロセスをシミュレートする。
本フレームワークの具体的実装であるCBDQ,CBDPPO,CBDSACは,離散的かつ連続的な動作空間において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-02T16:50:29Z) - Large Language Models and Cognitive Science: A Comprehensive Review of Similarities, Differences, and Challenges [14.739357670600102]
本稿では,Large Language Models(LLM)と認知科学の交わりについて概観する。
我々は,LLMの認知能力を評価する手法を分析し,認知モデルとしての可能性について議論する。
我々はLLMの認知バイアスと限界を評価し,その性能向上手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T02:30:12Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - CogLM: Tracking Cognitive Development of Large Language Models [20.138831477848615]
我々は、Piaget's Theory of Cognitive Developmentに基づくベンチマークCogLMを構築した。
CogLMは、20人以上の専門家によって作られた10の認知能力にまたがる1220の質問で構成されている。
先進的なLSMは、20歳の人間に匹敵する、人間のような認知能力を示している。
論文 参考訳(メタデータ) (2024-08-17T09:49:40Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - CogGPT: Unleashing the Power of Cognitive Dynamics on Large Language Models [24.079412787914993]
本稿では,大規模言語モデル(LLM)の認知力学の概念を提案し,縦断的研究のインスピレーションを得て,それに対応する課題を提案する。
この課題に向けて,LLMの認知力学を評価し,参加者による調査を通じて検証する新しいベンチマークであるCogBenchを開発した。
本稿では,生涯の認知力学の強化を目的とした,革新的な反復的認知機構を特徴とするタスク用CogGPTを紹介する。
論文 参考訳(メタデータ) (2024-01-06T03:59:59Z) - A Neuro-mimetic Realization of the Common Model of Cognition via Hebbian
Learning and Free Energy Minimization [55.11642177631929]
大規模なニューラル生成モデルは、意味的に豊富なテキストのパスを合成したり、複雑な画像を生成することができる。
我々はコモン・モデル・オブ・コグニティブ・ニューラル・ジェネレーティブ・システムについて論じる。
論文 参考訳(メタデータ) (2023-10-14T23:28:48Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。