論文の概要: Running cognitive evaluations on large language models: The do's and the
don'ts
- arxiv url: http://arxiv.org/abs/2312.01276v1
- Date: Sun, 3 Dec 2023 04:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 18:21:03.253982
- Title: Running cognitive evaluations on large language models: The do's and the
don'ts
- Title(参考訳): 大規模言語モデルにおける認知的評価:doとdon'ts
- Authors: Anna A. Ivanova
- Abstract要約: 大規模言語モデルの認知能力評価を目的とした研究の方法論的考察について述べる。
私は、AIシステムの高品質な認知評価を設計するのに役立つであろう10のDoとDonをリストアップします。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, I describe methodological considerations for studies that aim
to evaluate the cognitive capacities of large language models (LLMs) using
language-based behavioral assessments. Drawing on three case studies from the
literature (a commonsense knowledge benchmark, a theory of mind evaluation, and
a test of syntactic agreement), I describe common pitfalls that might arise
when applying a cognitive test to an LLM. I then list 10 do's and don'ts that
should help design high-quality cognitive evaluations for AI systems. I
conclude by discussing four areas where the do's and don'ts are currently under
active discussion -- prompt sensitivity, cultural and linguistic diversity,
using LLMs as research assistants, and running evaluations on open vs. closed
LLMs. Overall, the goal of the paper is to contribute to the broader discussion
of best practices in the rapidly growing field of AI Psychology.
- Abstract(参考訳): 本稿では,言語に基づく行動評価を用いた大規模言語モデル(LLM)の認知能力評価を目的とした研究の方法論的考察について述べる。
文献から得られた3つのケーススタディ(常識知識ベンチマーク,心的評価理論,統語的合意の検証)に基づき,認知検査をLCMに適用する際に生じる可能性のある共通の落とし穴について述べる。
そして、AIシステムの高品質な認知評価を設計するのに役立つであろう10のDoをリストアップします。
結論は、現在、ドナーとドナーが活発に議論されている4つの領域、即効性、文化的、言語的多様性、研究アシスタントとしてのLLMの使用、オープン対クローズドなLCMの評価についてである。
全体として、論文の目的は、急速に成長するAI心理学分野におけるベストプラクティスの広範な議論に貢献することである。
関連論文リスト
- Enhancing Human-Like Responses in Large Language Models [0.0]
我々は、AIシステムにおける自然言語理解、会話のコヒーレンス、感情的知性を高める技術に焦点を当てている。
この研究は、多様なデータセットによる微調整、心理学的原則の取り入れ、人間の推論パターンをよりよく模倣するモデルの設計など、さまざまなアプローチを評価している。
論文 参考訳(メタデータ) (2025-01-09T07:44:06Z) - Learning from Impairment: Leveraging Insights from Clinical Linguistics in Language Modelling Research [1.544681800932596]
本研究は,言語モデル(LM)の学習戦略と評価フレームワークを開発するために,言語障害研究からの洞察と臨床治療を統合する可能性について検討する。
本稿では,神経言語学,特に失語症治療における言語スキルの回復と一般化をめざした,言語学的動機の強い訓練アプローチの根底にある理論的基盤を考察する。
これらの知見が、LMの厳密な評価、特に複雑な構文現象の扱い、そして人間のような学習戦略の発展にどう影響するかを明らかにする。
論文 参考訳(メタデータ) (2024-12-20T10:53:21Z) - Introducing ELLIPS: An Ethics-Centered Approach to Research on LLM-Based Inference of Psychiatric Conditions [0.6174527525452624]
本稿では,言語を基盤とした精神病理学研究の倫理的景観を概説する。
モデルの開発とデプロイメントをガイドする7つの中心的な倫理原則を特定します。
我々はこれらの原則を研究者の選択を導くための質問に翻訳する。
論文 参考訳(メタデータ) (2024-09-06T12:27:38Z) - Comparing the Efficacy of GPT-4 and Chat-GPT in Mental Health Care: A Blind Assessment of Large Language Models for Psychological Support [0.0]
GPT-4とChat-GPTの2つの大きな言語モデルが18種類の心理的刺激に反応して試験された。
GPT-4は10点中8.29点、Chat-GPTは6.52点だった。
論文 参考訳(メタデータ) (2024-05-15T12:44:54Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Analyzing Character and Consciousness in AI-Generated Social Content: A
Case Study of Chirper, the AI Social Network [0.0]
この研究はAIの振る舞いを包括的に調査し、多様な設定がチャーパーの反応に与える影響を分析している。
一連の認知テストを通じて、この研究はチャーパーズの自己認識とパターン認識の能力を評価する。
この研究の興味深い側面は、チャーパーのハンドルやパーソナリティのタイプがパフォーマンスに与える影響を探ることである。
論文 参考訳(メタデータ) (2023-08-30T15:40:18Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Language Cognition and Language Computation -- Human and Machine
Language Understanding [51.56546543716759]
言語理解は認知科学とコンピュータ科学の分野で重要な科学的問題である。
これらの規律を組み合わせることで、インテリジェントな言語モデルを構築する上で、新たな洞察が得られますか?
論文 参考訳(メタデータ) (2023-01-12T02:37:00Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - A general framework for scientifically inspired explanations in AI [76.48625630211943]
我々は、AIシステムの説明を実装可能な一般的なフレームワークの理論的基盤として、科学的説明の構造の概念をインスタンス化する。
このフレームワークは、AIシステムの"メンタルモデル"を構築するためのツールを提供することを目的としている。
論文 参考訳(メタデータ) (2020-03-02T10:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。