論文の概要: Running cognitive evaluations on large language models: The do's and the
don'ts
- arxiv url: http://arxiv.org/abs/2312.01276v1
- Date: Sun, 3 Dec 2023 04:28:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-05 18:21:03.253982
- Title: Running cognitive evaluations on large language models: The do's and the
don'ts
- Title(参考訳): 大規模言語モデルにおける認知的評価:doとdon'ts
- Authors: Anna A. Ivanova
- Abstract要約: 大規模言語モデルの認知能力評価を目的とした研究の方法論的考察について述べる。
私は、AIシステムの高品質な認知評価を設計するのに役立つであろう10のDoとDonをリストアップします。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, I describe methodological considerations for studies that aim
to evaluate the cognitive capacities of large language models (LLMs) using
language-based behavioral assessments. Drawing on three case studies from the
literature (a commonsense knowledge benchmark, a theory of mind evaluation, and
a test of syntactic agreement), I describe common pitfalls that might arise
when applying a cognitive test to an LLM. I then list 10 do's and don'ts that
should help design high-quality cognitive evaluations for AI systems. I
conclude by discussing four areas where the do's and don'ts are currently under
active discussion -- prompt sensitivity, cultural and linguistic diversity,
using LLMs as research assistants, and running evaluations on open vs. closed
LLMs. Overall, the goal of the paper is to contribute to the broader discussion
of best practices in the rapidly growing field of AI Psychology.
- Abstract(参考訳): 本稿では,言語に基づく行動評価を用いた大規模言語モデル(LLM)の認知能力評価を目的とした研究の方法論的考察について述べる。
文献から得られた3つのケーススタディ(常識知識ベンチマーク,心的評価理論,統語的合意の検証)に基づき,認知検査をLCMに適用する際に生じる可能性のある共通の落とし穴について述べる。
そして、AIシステムの高品質な認知評価を設計するのに役立つであろう10のDoをリストアップします。
結論は、現在、ドナーとドナーが活発に議論されている4つの領域、即効性、文化的、言語的多様性、研究アシスタントとしてのLLMの使用、オープン対クローズドなLCMの評価についてである。
全体として、論文の目的は、急速に成長するAI心理学分野におけるベストプラクティスの広範な議論に貢献することである。
関連論文リスト
- Using the Tools of Cognitive Science to Understand Large Language Models at Different Levels of Analysis [46.08309259203833]
認知科学で開発された手法は、大きな言語モデルを理解するのに役立つと論じる。
本稿では,これらの手法をMarrの3つの解析レベルに基づいて適用するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T17:33:54Z) - Enhancing Human-Like Responses in Large Language Models [0.0]
我々は、AIシステムにおける自然言語理解、会話のコヒーレンス、感情的知性を高める技術に焦点を当てている。
この研究は、多様なデータセットによる微調整、心理学的原則の取り入れ、人間の推論パターンをよりよく模倣するモデルの設計など、さまざまなアプローチを評価している。
論文 参考訳(メタデータ) (2025-01-09T07:44:06Z) - How Performance Pressure Influences AI-Assisted Decision Making [57.53469908423318]
我々は、プレッシャーと説明可能なAI(XAI)技術がAIアドバイステイク行動とどのように相互作用するかを示す。
我々の結果は、圧力とXAIの異なる組み合わせで複雑な相互作用効果を示し、AIアドバイスの行動を改善するか、悪化させるかのどちらかを示す。
論文 参考訳(メタデータ) (2024-10-21T22:39:52Z) - Introducing ELLIPS: An Ethics-Centered Approach to Research on LLM-Based Inference of Psychiatric Conditions [0.6174527525452624]
本稿では,言語を基盤とした精神病理学研究の倫理的景観を概説する。
モデルの開発とデプロイメントをガイドする7つの中心的な倫理原則を特定します。
我々はこれらの原則を研究者の選択を導くための質問に翻訳する。
論文 参考訳(メタデータ) (2024-09-06T12:27:38Z) - Comparing the Efficacy of GPT-4 and Chat-GPT in Mental Health Care: A Blind Assessment of Large Language Models for Psychological Support [0.0]
GPT-4とChat-GPTの2つの大きな言語モデルが18種類の心理的刺激に反応して試験された。
GPT-4は10点中8.29点、Chat-GPTは6.52点だった。
論文 参考訳(メタデータ) (2024-05-15T12:44:54Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Analyzing Character and Consciousness in AI-Generated Social Content: A
Case Study of Chirper, the AI Social Network [0.0]
この研究はAIの振る舞いを包括的に調査し、多様な設定がチャーパーの反応に与える影響を分析している。
一連の認知テストを通じて、この研究はチャーパーズの自己認識とパターン認識の能力を評価する。
この研究の興味深い側面は、チャーパーのハンドルやパーソナリティのタイプがパフォーマンスに与える影響を探ることである。
論文 参考訳(メタデータ) (2023-08-30T15:40:18Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Language Cognition and Language Computation -- Human and Machine
Language Understanding [51.56546543716759]
言語理解は認知科学とコンピュータ科学の分野で重要な科学的問題である。
これらの規律を組み合わせることで、インテリジェントな言語モデルを構築する上で、新たな洞察が得られますか?
論文 参考訳(メタデータ) (2023-01-12T02:37:00Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Towards Human-centered Explainable AI: A Survey of User Studies for Model Explanations [18.971689499890363]
我々は過去5年間に人間によるXAI評価で97コア論文を特定し分析してきた。
我々の研究は、XAIがレコメンダシステムなど特定のアプリケーション領域で急速に普及していることを示している。
我々は,XAI研究者や実践者を対象としたユーザスタディの設計と実施に関する実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2022-10-20T20:53:00Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - Human Evaluation of Interpretability: The Case of AI-Generated Music
Knowledge [19.508678969335882]
我々は、芸術と人文科学におけるAIが発見する知識/ルールを評価することに注力する。
本稿では,洗練された記号的/数値的対象として表現されたAI生成音楽理論/ルールの人間生成言語解釈を収集し,評価する実験手法を提案する。
論文 参考訳(メタデータ) (2020-04-15T06:03:34Z) - A general framework for scientifically inspired explanations in AI [76.48625630211943]
我々は、AIシステムの説明を実装可能な一般的なフレームワークの理論的基盤として、科学的説明の構造の概念をインスタンス化する。
このフレームワークは、AIシステムの"メンタルモデル"を構築するためのツールを提供することを目的としている。
論文 参考訳(メタデータ) (2020-03-02T10:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。