論文の概要: Do Language Models Understand the Cognitive Tasks Given to Them? Investigations with the N-Back Paradigm
- arxiv url: http://arxiv.org/abs/2412.18120v2
- Date: Thu, 26 Dec 2024 16:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:07.880000
- Title: Do Language Models Understand the Cognitive Tasks Given to Them? Investigations with the N-Back Paradigm
- Title(参考訳): 言語モデルはテーマに与えられた認知的課題を理解するか? N-Back Paradigmによる検討
- Authors: Xiaoyang Hu, Richard L. Lewis,
- Abstract要約: GPT 3.5の2-backタスクと3-backタスクのパフォーマンス低下は、人間のように動作するメモリ容量の限界を反映している、と我々は主張する。
これらのタスクにおける様々なパフォーマンスレベルのオープンソース言語モデルを解析することにより、タスク理解とタスクセットのメンテナンスの制限を反映していることを示す。
- 参考スコア(独自算出の注目度): 9.577716124021029
- License:
- Abstract: Cognitive tasks originally developed for humans are now increasingly used to study language models. While applying these tasks is often straightforward, interpreting their results can be challenging. In particular, when a model underperforms, it is often unclear whether this results from a limitation in the cognitive ability being tested or a failure to understand the task itself. A recent study argues that GPT 3.5's declining performance on 2-back and 3-back tasks reflects a working memory capacity limit similar to humans (Gong et al., 2024). By analyzing a range of open-source language models of varying performance levels on these tasks, we show that the poor performance instead reflects a limitation in task comprehension and task set maintenance. In addition, we challenge the best-performing model with progressively harder versions of the task (up to 10-back) and experiment with alternative prompting strategies, before analyzing model attentions. Our larger aim is to contribute to the ongoing conversation around refining methodologies for the cognitive evaluation of language models.
- Abstract(参考訳): もともと人間のために開発された認知タスクは、現在では言語モデルの研究に使われている。
これらのタスクを適用するのは簡単ですが、結果を解釈するのは難しい場合があります。
特に、モデルが過小評価されると、テスト対象の認知能力の限界や、タスク自体の理解に失敗した結果であるかどうかがしばしば不明確になる。
最近の研究では、GPT 3.5の2-backタスクと3-backタスクのパフォーマンスの低下は、人間のように働くメモリ容量の限界を反映している(Gong et al , 2024)。
これらのタスクにおける様々なパフォーマンスレベルのオープンソース言語モデルを解析することにより、タスク理解とタスクセットのメンテナンスの制限を反映していることを示す。
さらに,タスクのより難しいバージョン(最大10-back)で最高のパフォーマンスモデルに挑戦し,モデルの注意点を分析する前に,代替のプロンプト戦略を試す。
我々の大きな目的は、言語モデルの認知的評価のための方法論の洗練に関する継続的な議論に貢献することである。
関連論文リスト
- Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse [9.542503507653494]
CoT(Chain-of-Thought)は、大規模言語やマルチモーダルモデルを扱う上で広く使われている戦略である。
認知心理学からインスピレーションを得て,CoTが性能を低下させるタスクの特徴を同定する。
予測時間推論を用いた場合,多種多様な最先端モデル群が性能低下を示すことが判明した。
論文 参考訳(メタデータ) (2024-10-27T18:30:41Z) - Lessons from the Trenches on Reproducible Evaluation of Language Models [60.522749986793094]
我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。
本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
論文 参考訳(メタデータ) (2024-05-23T16:50:49Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Auxiliary task demands mask the capabilities of smaller language models [2.938889003635811]
タスク要求が大きい評価手法は、要求の少ない評価よりも性能が低いことを示す。
この結果から,LM性能はインテリジェンスの直接的な表示として解釈するべきではないことが示唆された。
論文 参考訳(メタデータ) (2024-04-03T02:56:52Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks [71.19560970717495]
最近の言語モデルは、幅広いタスクで印象的なパフォーマンスを示している。
これらのスキルは一般的で、移行可能か、あるいは事前トレーニング中に見られる特定のタスクに特化していますか?
本稿では,標準タスクの既定前提から逸脱する「数値的」タスク変種に基づく評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-05T17:50:42Z) - Define, Evaluate, and Improve Task-Oriented Cognitive Capabilities for
Instruction Generation Models [5.975913042883176]
最近の研究は、人間のために設計された心理学的テストを通して言語モデルの認知能力を研究する。
我々は、言語モデルがタスクを実行するために利用する人間のような認知能力であるタスク指向認知能力を定式化する。
論文 参考訳(メタデータ) (2022-12-21T04:43:19Z) - Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models [648.3665819567409]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文 参考訳(メタデータ) (2022-06-09T17:05:34Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - A Closer Look at Linguistic Knowledge in Masked Language Models: The
Case of Relative Clauses in American English [17.993417004424078]
トランスフォーマーに基づく言語モデルは、様々なタスクにおいて高いパフォーマンスを達成するが、それらが学習し、依存する言語知識の理解はいまだに不足している。
文レベルの探索, 診断事例, マスク付き予測タスクにより, 文法的および意味的知識をテストする3つのモデル(BERT, RoBERTa, ALBERT)を評価した。
論文 参考訳(メタデータ) (2020-11-02T13:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。