論文の概要: Developing the PsyCogMetrics AI Lab to Evaluate Large Language Models and Advance Cognitive Science -- A Three-Cycle Action Design Science Study
- arxiv url: http://arxiv.org/abs/2603.13126v1
- Date: Fri, 13 Mar 2026 16:17:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.186943
- Title: Developing the PsyCogMetrics AI Lab to Evaluate Large Language Models and Advance Cognitive Science -- A Three-Cycle Action Design Science Study
- Title(参考訳): 大規模言語モデルの評価と認知科学の進歩を目的としたPsyCogMetrics AI Labの開発 - 3サイクルアクションデザイン科学研究
- Authors: Zhiye Jin, Yibai Li, K. D. Joshi, Xuefei, Deng, Xiaobing, Li,
- Abstract要約: PsyCogMetrics AI Lab (psycogmetrics.ai)は、大規模言語モデル(LLM)評価のための心理計測および認知科学方法論を運用する、統合されたクラウドベースのプラットフォームである。
Relevance Cycleは3サイクルのAction Design Science研究として分類され、現在の評価方法と未完のステークホルダーのニーズにおける重要な制限を特定している。
リゴールサイクルは、導出設計目的を導出するために、ポペリアのフェルシフィビリティ、古典的テスト理論、認知負荷理論などのカーネル理論を基礎としている。
- 参考スコア(独自算出の注目度): 1.0664519943961455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents the development of the PsyCogMetrics AI Lab (psycogmetrics.ai), an integrated, cloud-based platform that operationalizes psychometric and cognitive-science methodologies for Large Language Model (LLM) evaluation. Framed as a three-cycle Action Design Science study, the Relevance Cycle identifies key limitations in current evaluation methods and unfulfilled stakeholder needs. The Rigor Cycle draws on kernel theories such as Popperian falsifiability, Classical Test Theory, and Cognitive Load Theory to derive deductive design objectives. The Design Cycle operationalizes these objectives through nested Build-Intervene-Evaluate loops. The study contributes a novel IT artifact, a validated design for LLM evaluation, benefiting research at the intersection of AI, psychology, cognitive science, and the social and behavioral sciences.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)評価のための心理・認知科学方法論を運用するクラウドベースの統合プラットフォームであるPsyCogMetrics AI Lab(psycogmetrics.ai)の開発について述べる。
Relevance Cycleは3サイクルのAction Design Science研究として分類され、現在の評価方法と未完のステークホルダーのニーズにおける重要な制限を特定している。
リゴールサイクルは、導出設計目的を導出するために、ポペリアのフェルシフィビリティ、古典的テスト理論、認知負荷理論などのカーネル理論を基礎としている。
Design Cycleは、ネストしたBuild-Intervene-Evaluateループを通じて、これらの目的を運用する。
この研究は、新しいITアーティファクト、LLM評価のための検証済みの設計、AI、心理学、認知科学、社会と行動科学の交差点における研究の恩恵に貢献する。
関連論文リスト
- BioLLMAgent: A Hybrid Framework with Enhanced Structural Interpretability for Simulating Human Decision-Making in Computational Psychiatry [16.51908698615755]
評価された認知モデルと大規模言語モデルの生成能力を組み合わせた,新しいハイブリッドフレームワークであるBioLLMAgentを紹介する。
アイオワ・ギャンブリング・タスクの実験では、BioLLMAgentは人間の行動パターンを正確に再現している。
BioLLMAgentは、精神医学研究における機械的仮説と介入戦略をテストするために構造的に解釈可能な「計算サンドボックス」を提供する。
論文 参考訳(メタデータ) (2026-03-05T10:04:24Z) - BABE: Biology Arena BEnchmark [51.53220868983288]
BABEは、生物学的AIシステムの実験的推論能力を評価するために設計されたベンチマークである。
われわれのベンチマークは、AIシステムが科学者を実践するのと同じように、いかにうまく判断できるかを評価するための堅牢なフレームワークを提供する。
論文 参考訳(メタデータ) (2026-02-05T16:39:20Z) - Opportunities in AI/ML for the Rubin LSST Dark Energy Science Collaboration [63.61423859450929]
この白書は、DESCの主要な宇宙探査と横断的分析を通して、AI/MLの現在の状況を調査している。
本研究では,大規模ベイズ推定,物理インフォームド手法,検証フレームワーク,発見のための能動的学習など,主要な方法論研究の優先事項を明らかにする。
論文 参考訳(メタデータ) (2026-01-20T18:46:42Z) - A Survey of Vibe Coding with Large Language Models [93.88284590533242]
視覚符号化(Vibe Coding)は、開発者が成果観察を通じてAI生成の実装を検証する開発手法である。
変革の可能性にもかかわらず、この創発的パラダイムの有効性は未解明のままである。
この調査は、大規模な言語モデルによるVibe Codingの総合的かつ体系的なレビューを初めて提供する。
論文 参考訳(メタデータ) (2025-10-14T11:26:56Z) - A Review of Developmental Interpretability in Large Language Models [0.0]
本総説では,大規模言語モデルの発達的解釈可能性について概説する。
我々は、トレーニングされたモデルの静的なポストホック解析から、トレーニングプロセス自体の動的調査まで、フィールドの進化をグラフ化する。
論文 参考訳(メタデータ) (2025-08-19T18:19:16Z) - From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery [108.1082357960201]
エージェントAIは仮説生成、実験設計、実行、分析、反復的洗練の能力を示す。
この調査は、生命科学、化学、材料科学、物理学にまたがる自律的な科学的発見のドメイン指向のレビューを提供する。
論文 参考訳(メタデータ) (2025-08-18T05:25:54Z) - Jolting Technologies: Superexponential Acceleration in AI Capabilities and Implications for AGI [0.0]
モンテカルロシミュレーションによる理論的枠組みと検出手法の検証を行う。
この研究は、アイデアとアクションの間隔を縮めることや、反復的なAIの改善が、どのようにして、このダルトパターンを駆動するかを検討する。
論文 参考訳(メタデータ) (2025-07-08T21:03:49Z) - Enhancing LLM-Based Feedback: Insights from Intelligent Tutoring Systems and the Learning Sciences [0.0]
この研究は、ITSのフィードバック生成に関する以前の研究を通し、AIEDの研究を慎重に支援するものである。
本論文の主な貢献は次のとおりである。 生成AIの時代におけるフィードバック生成において、より慎重で理論的に基礎付けられた手法を適用すること。
論文 参考訳(メタデータ) (2024-05-07T20:09:18Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。