論文の概要: A Framework for Robust Cognitive Evaluation of LLMs
- arxiv url: http://arxiv.org/abs/2504.02789v1
- Date: Thu, 03 Apr 2025 17:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:56.879819
- Title: A Framework for Robust Cognitive Evaluation of LLMs
- Title(参考訳): LLMのロバスト認知評価のためのフレームワーク
- Authors: Karin de Langis, Jong Inn Park, Bin Hu, Khanh Chi Le, Andreas Schramm, Michael C. Mensink, Andrew Elfenbein, Dongyeop Kang,
- Abstract要約: 大規模言語モデル(LLM)の創発的認知能力は広く観察されているが、その性質と基盤メカニズムはいまだによく分かっていない。
我々は,LLMの認知能力を体系的に評価するフレームワークであるCognitivEvalを開発した。
- 参考スコア(独自算出の注目度): 13.822169295436177
- License:
- Abstract: Emergent cognitive abilities in large language models (LLMs) have been widely observed, but their nature and underlying mechanisms remain poorly understood. A growing body of research draws on cognitive science to investigate LLM cognition, but standard methodologies and experimen-tal pipelines have not yet been established. To address this gap we develop CognitivEval, a framework for systematically evaluating the artificial cognitive capabilities of LLMs, with a particular emphasis on robustness in response collection. The key features of CognitivEval include: (i) automatic prompt permutations, and (ii) testing that gathers both generations and model probability estimates. Our experiments demonstrate that these features lead to more robust experimental outcomes. Using CognitivEval, we replicate five classic experiments in cognitive science, illustrating the framework's generalizability across various experimental tasks and obtaining a cognitive profile of several state of the art LLMs. CognitivEval will be released publicly to foster broader collaboration within the cognitive science community.
- Abstract(参考訳): 大規模言語モデル(LLM)の創発的認知能力は広く観察されているが、その性質と基盤メカニズムはいまだによく分かっていない。
成長する研究機関は認知科学に焦点をあててLLM認知を研究するが、標準的な方法論や実験用パイプラインはまだ確立されていない。
このギャップに対処するため,我々は,LLMの人工認知能力を体系的に評価するフレームワークであるCognitivEvalを開発した。
CognitivEvalの主な特徴は以下のとおりである。
(i)自動プロンプト置換、及び
(ii)世代とモデル確率推定の両方を収集するテスト。
我々の実験は、これらの特徴がより堅牢な実験結果をもたらすことを示した。
我々はCognitivEvalを用いて、認知科学の古典的な5つの実験を再現し、様々な実験課題にまたがるフレームワークの一般化可能性を説明し、いくつかの最先端のLCMの認知プロファイルを得る。
CognitivEvalは、認知科学コミュニティ内でより広範なコラボレーションを促進するために、一般公開される。
関連論文リスト
- The potential -- and the pitfalls -- of using pre-trained language models as cognitive science theories [2.6549754445378344]
PLMを認知科学理論として活用する上での課題について論じる。
我々は,PLM性能の指標を人的性能の尺度にマッピングするために研究者が用いた仮定をレビューする。
PLMを認知・認知発達の信頼できる指標として用いるための基準を列挙する。
論文 参考訳(メタデータ) (2025-01-22T05:24:23Z) - Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs [64.9693406713216]
RAGシステムの有効性に寄与する内部メカニズムは未解明のままである。
実験の結果,複数のコアグループの専門家がRAG関連行動に主に関与していることが判明した。
本稿では,専門家の活性化を通じてRAGの効率性と有効性を高めるためのいくつかの戦略を提案する。
論文 参考訳(メタデータ) (2024-10-20T16:08:54Z) - Large Language Models and Cognitive Science: A Comprehensive Review of Similarities, Differences, and Challenges [14.739357670600102]
本稿では,Large Language Models(LLM)と認知科学の交わりについて概観する。
我々は,LLMの認知能力を評価する手法を分析し,認知モデルとしての可能性について議論する。
我々はLLMの認知バイアスと限界を評価し,その性能向上手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T02:30:12Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - CogLM: Tracking Cognitive Development of Large Language Models [20.138831477848615]
我々は、Piaget's Theory of Cognitive Developmentに基づくベンチマークCogLMを構築した。
CogLMは、20人以上の専門家によって作られた10の認知能力にまたがる1220の質問で構成されている。
先進的なLSMは、20歳の人間に匹敵する、人間のような認知能力を示している。
論文 参考訳(メタデータ) (2024-08-17T09:49:40Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - CogGPT: Unleashing the Power of Cognitive Dynamics on Large Language Models [24.079412787914993]
本稿では,大規模言語モデル(LLM)の認知力学の概念を提案し,縦断的研究のインスピレーションを得て,それに対応する課題を提案する。
この課題に向けて,LLMの認知力学を評価し,参加者による調査を通じて検証する新しいベンチマークであるCogBenchを開発した。
本稿では,生涯の認知力学の強化を目的とした,革新的な反復的認知機構を特徴とするタスク用CogGPTを紹介する。
論文 参考訳(メタデータ) (2024-01-06T03:59:59Z) - A Neuro-mimetic Realization of the Common Model of Cognition via Hebbian
Learning and Free Energy Minimization [55.11642177631929]
大規模なニューラル生成モデルは、意味的に豊富なテキストのパスを合成したり、複雑な画像を生成することができる。
我々はコモン・モデル・オブ・コグニティブ・ニューラル・ジェネレーティブ・システムについて論じる。
論文 参考訳(メタデータ) (2023-10-14T23:28:48Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z) - A Novel Neural-symbolic System under Statistical Relational Learning [47.30190559449236]
NSF-SRLと呼ばれる統計的関係学習に基づくニューラルシンボリック・フレームワークを提案する。
シンボリック推論の結果は、深層学習モデルによる予測の洗練と修正に利用され、深層学習モデルはシンボリック推論プロセスの効率を高める。
我々は、このアプローチがニューラルシンボリックシステムの新しい標準となり、汎用人工知能の分野における将来の研究を促進すると信じている。
論文 参考訳(メタデータ) (2023-09-16T09:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。