Fugu-MT 論文翻訳(概要): Running cognitive evaluations on large language models: The do's and the don'ts

論文の概要: Running cognitive evaluations on large language models: The do's and the don'ts

arxiv url: http://arxiv.org/abs/2312.01276v1
Date: Sun, 3 Dec 2023 04:28:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 18:21:03.253982
Title: Running cognitive evaluations on large language models: The do's and the don'ts
Title（参考訳）: 大規模言語モデルにおける認知的評価:doとdon'ts
Authors: Anna A. Ivanova
Abstract要約: 大規模言語モデルの認知能力評価を目的とした研究の方法論的考察について述べる。私は、AIシステムの高品質な認知評価を設計するのに役立つであろう10のDoとDonをリストアップします。
参考スコア（独自算出の注目度）: 3.8073142980733
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, I describe methodological considerations for studies that aim to evaluate the cognitive capacities of large language models (LLMs) using language-based behavioral assessments. Drawing on three case studies from the literature (a commonsense knowledge benchmark, a theory of mind evaluation, and a test of syntactic agreement), I describe common pitfalls that might arise when applying a cognitive test to an LLM. I then list 10 do's and don'ts that should help design high-quality cognitive evaluations for AI systems. I conclude by discussing four areas where the do's and don'ts are currently under active discussion -- prompt sensitivity, cultural and linguistic diversity, using LLMs as research assistants, and running evaluations on open vs. closed LLMs. Overall, the goal of the paper is to contribute to the broader discussion of best practices in the rapidly growing field of AI Psychology.
Abstract（参考訳）: 本稿では,言語に基づく行動評価を用いた大規模言語モデル(LLM)の認知能力評価を目的とした研究の方法論的考察について述べる。文献から得られた3つのケーススタディ(常識知識ベンチマーク,心的評価理論,統語的合意の検証)に基づき,認知検査をLCMに適用する際に生じる可能性のある共通の落とし穴について述べる。そして、AIシステムの高品質な認知評価を設計するのに役立つであろう10のDoをリストアップします。結論は、現在、ドナーとドナーが活発に議論されている4つの領域、即効性、文化的、言語的多様性、研究アシスタントとしてのLLMの使用、オープン対クローズドなLCMの評価についてである。全体として、論文の目的は、急速に成長するAI心理学分野におけるベストプラクティスの広範な議論に貢献することである。

関連論文リスト

The Incomplete Bridge: How AI Research (Mis)Engages with Psychology [30.36064725942852]
社会科学は人間の心と行動を研究するための理論と方法論の豊富な体系を蓄積してきた。本研究は,心理学を顕著な事例として,AIと分野間の学際的相乗効果について考察する。我々は、学際統合の重要なパターンを特定し、最も頻繁に参照される心理学領域を特定し、未探索領域をハイライトする。
論文参考訳（メタデータ） (2025-07-30T17:03:59Z)
A Computational Framework to Identify Self-Aspects in Text [9.187473897664105]
Selfは多面的な構造であり、言語で反映されている。自己の多くの側面は、心理的および他のよく研究された現象と一致している。本提案では,テキスト中の自己アスペクトを識別する計算フレームワークを開発する計画を提案する。
論文参考訳（メタデータ） (2025-07-17T13:31:04Z)
Using the Tools of Cognitive Science to Understand Large Language Models at Different Levels of Analysis [46.08309259203833]
認知科学で開発された手法は、大きな言語モデルを理解するのに役立つと論じる。本稿では,これらの手法をMarrの3つの解析レベルに基づいて適用するためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-17T17:33:54Z)
Enhancing Human-Like Responses in Large Language Models [0.0]
我々は、AIシステムにおける自然言語理解、会話のコヒーレンス、感情的知性を高める技術に焦点を当てている。この研究は、多様なデータセットによる微調整、心理学的原則の取り入れ、人間の推論パターンをよりよく模倣するモデルの設計など、さまざまなアプローチを評価している。
論文参考訳（メタデータ） (2025-01-09T07:44:06Z)
How Performance Pressure Influences AI-Assisted Decision Making [57.53469908423318]
我々は、プレッシャーと説明可能なAI(XAI)技術がAIアドバイステイク行動とどのように相互作用するかを示す。我々の結果は、圧力とXAIの異なる組み合わせで複雑な相互作用効果を示し、AIアドバイスの行動を改善するか、悪化させるかのどちらかを示す。
論文参考訳（メタデータ） (2024-10-21T22:39:52Z)
Introducing ELLIPS: An Ethics-Centered Approach to Research on LLM-Based Inference of Psychiatric Conditions [0.6174527525452624]
本稿では,言語を基盤とした精神病理学研究の倫理的景観を概説する。モデルの開発とデプロイメントをガイドする7つの中心的な倫理原則を特定します。我々はこれらの原則を研究者の選択を導くための質問に翻訳する。
論文参考訳（メタデータ） (2024-09-06T12:27:38Z)
Comparing the Efficacy of GPT-4 and Chat-GPT in Mental Health Care: A Blind Assessment of Large Language Models for Psychological Support [0.0]
GPT-4とChat-GPTの2つの大きな言語モデルが18種類の心理的刺激に反応して試験された。 GPT-4は10点中8.29点、Chat-GPTは6.52点だった。
論文参考訳（メタデータ） (2024-05-15T12:44:54Z)
From Heuristic to Analytic: Cognitively Motivated Strategies for Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文参考訳（メタデータ） (2023-10-24T19:46:04Z)
Analyzing Character and Consciousness in AI-Generated Social Content: A Case Study of Chirper, the AI Social Network [0.0]
この研究はAIの振る舞いを包括的に調査し、多様な設定がチャーパーの反応に与える影響を分析している。一連の認知テストを通じて、この研究はチャーパーズの自己認識とパターン認識の能力を評価する。この研究の興味深い側面は、チャーパーのハンドルやパーソナリティのタイプがパフォーマンスに与える影響を探ることである。
論文参考訳（メタデータ） (2023-08-30T15:40:18Z)
Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文参考訳（メタデータ） (2023-03-24T13:24:41Z)
Language Cognition and Language Computation -- Human and Machine Language Understanding [51.56546543716759]
言語理解は認知科学とコンピュータ科学の分野で重要な科学的問題である。これらの規律を組み合わせることで、インテリジェントな言語モデルを構築する上で、新たな洞察が得られますか?
論文参考訳（メタデータ） (2023-01-12T02:37:00Z)
The Role of AI in Drug Discovery: Challenges, Opportunities, and Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文参考訳（メタデータ） (2022-12-08T23:23:39Z)
Towards Human-centered Explainable AI: A Survey of User Studies for Model Explanations [18.971689499890363]
我々は過去5年間に人間によるXAI評価で97コア論文を特定し分析してきた。我々の研究は、XAIがレコメンダシステムなど特定のアプリケーション領域で急速に普及していることを示している。我々は,XAI研究者や実践者を対象としたユーザスタディの設計と実施に関する実践的ガイドラインを提案する。
論文参考訳（メタデータ） (2022-10-20T20:53:00Z)
Model-based analysis of brain activity reveals the hierarchy of language in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文参考訳（メタデータ） (2021-10-12T15:30:21Z)
Human Evaluation of Interpretability: The Case of AI-Generated Music Knowledge [19.508678969335882]
我々は、芸術と人文科学におけるAIが発見する知識/ルールを評価することに注力する。本稿では,洗練された記号的/数値的対象として表現されたAI生成音楽理論/ルールの人間生成言語解釈を収集し,評価する実験手法を提案する。
論文参考訳（メタデータ） (2020-04-15T06:03:34Z)
A general framework for scientifically inspired explanations in AI [76.48625630211943]
我々は、AIシステムの説明を実装可能な一般的なフレームワークの理論的基盤として、科学的説明の構造の概念をインスタンス化する。このフレームワークは、AIシステムの"メンタルモデル"を構築するためのツールを提供することを目的としている。
論文参考訳（メタデータ） (2020-03-02T10:32:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。