論文の概要: Evaluating Cognitive Maps and Planning in Large Language Models with
CogEval
- arxiv url: http://arxiv.org/abs/2309.15129v1
- Date: Mon, 25 Sep 2023 01:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 18:29:21.422958
- Title: Evaluating Cognitive Maps and Planning in Large Language Models with
CogEval
- Title(参考訳): CogEvalを用いた大規模言語モデルにおける認知地図と計画の評価
- Authors: Ida Momennejad, Hosein Hasanbeig, Felipe Vieira, Hiteshi Sharma,
Robert Osazuwa Ness, Nebojsa Jojic, Hamid Palangi, Jonathan Larson
- Abstract要約: 大規模言語モデルにおける認知能力の体系的評価のための認知科学に着想を得たプロトコルであるCogEvalを提案する。
我々は、計画を評価するための確立された構成的妥当性とLLMトレーニングセットの欠如の両方を提供する、人間の実験に基づくタスクプロンプトを定めている。
LLMは単純な構造を持ついくつかの計画タスクにおいて明らかな能力を示すが、体系的な評価は計画タスクにおいて顕著な失敗モードを示す。
- 参考スコア(独自算出の注目度): 23.935446472870577
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently an influx of studies claim emergent cognitive abilities in large
language models (LLMs). Yet, most rely on anecdotes, overlook contamination of
training sets, or lack systematic Evaluation involving multiple tasks, control
conditions, multiple iterations, and statistical robustness tests. Here we make
two major contributions. First, we propose CogEval, a cognitive
science-inspired protocol for the systematic evaluation of cognitive capacities
in Large Language Models. The CogEval protocol can be followed for the
evaluation of various abilities. Second, here we follow CogEval to
systematically evaluate cognitive maps and planning ability across eight LLMs
(OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard,
Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, and Alpaca-7B). We base
our task prompts on human experiments, which offer both established construct
validity for evaluating planning, and are absent from LLM training sets. We
find that, while LLMs show apparent competence in a few planning tasks with
simpler structures, systematic evaluation reveals striking failure modes in
planning tasks, including hallucinations of invalid trajectories and getting
trapped in loops. These findings do not support the idea of emergent
out-of-the-box planning ability in LLMs. This could be because LLMs do not
understand the latent relational structures underlying planning problems, known
as cognitive maps, and fail at unrolling goal-directed trajectories based on
the underlying structure. Implications for application and future directions
are discussed.
- Abstract(参考訳): 近年,大規模言語モデル(llm)における創発的認知能力に関する研究が流入している。
しかし、ほとんどは逸話、トレーニングセットの汚染を見落としたり、複数のタスク、制御条件、複数のイテレーション、統計ロバストネステストに関する体系的な評価を欠いている。
ここでは2つの大きな貢献をします。
まず,大規模言語モデルにおける認知能力の体系的評価のための認知科学に着想を得たプロトコルであるCogEvalを提案する。
CogEvalプロトコルは、様々な能力の評価に従うことができる。
第2に,認知地図と計画能力の体系的評価をCogEvalに従って行う(OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, Alpaca-7B)。
我々は、計画を評価するための確立された構成的妥当性とLLMトレーニングセットの欠如の両方を提供する、人間の実験に基づくタスクプロンプトを定めている。
LLMは単純な構造を持ついくつかの計画タスクにおいて明らかな能力を示すが、体系的な評価は、不正な軌道の幻覚やループに閉じ込められるなど、計画タスクにおいて顕著な障害モードを示す。
これらの発見は、llmにおける創発的な計画能力の考え方を支持していない。
LLMは、認知地図として知られる計画問題の根底にある潜在関係構造を理解しておらず、基礎構造に基づく目標指向軌道の展開に失敗するためかもしれない。
応用と今後の方向性について論じる。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Probing Pretrained Language Models with Hierarchy Properties [3.9694958595022376]
本研究では, PLM が複雑な分類学関係をどの程度捉えることができるかを評価することができるタスク非依存評価手法を提案する。
提案するプロパティを PLM に注入することで,階層構造に対する理解を深めることができることを示す。
論文 参考訳(メタデータ) (2023-12-15T10:31:36Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z) - Knowledge Crosswords: Geometric Reasoning over Structured Knowledge with
Large Language Models [51.35398315130094]
構造的知識に対する幾何学的推論を提案し、そこでは知識の一部がグラフ構造に連結され、モデルは不足した情報を埋める必要がある。
このような幾何学的知識推論は、構造化された知識、不確実性のある推論、事実の検証、エラーが発生した時のバックトラックを扱う能力を必要とする。
本稿では,不完全なエンティティネットワークの幾何学的制約を表す自然言語質問からなるマルチブランクQAデータセットであるKnowledge Crosswordsを提案する。
論文 参考訳(メタデータ) (2023-10-02T15:43:53Z) - A Prefrontal Cortex-inspired Architecture for Planning in Large Language
Models [16.475564538598768]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。
我々はヒト脳からインスピレーションを受け、前頭前皮質(PFC)の特殊モジュールの反復的相互作用によって計画が達成される。
論文 参考訳(メタデータ) (2023-09-30T00:10:14Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z) - Artificial Neuropsychology: Are Large Language Models Developing
Executive Functions? [0.0]
ハノイ・タワーズ・オブ・ハノイ法によるGPTの計画機能と作業記憶の評価を行った。
予備的な結果は、LLMがハノイの塔でほぼ最適解を生成することを示している。
これらの能力は、タスクが分かっていないときに、よく訓練された人間よりも非常に制限され、悪い。
論文 参考訳(メタデータ) (2023-05-06T20:53:22Z) - On the Planning Abilities of Large Language Models (A Critical
Investigation with a Proposed Benchmark) [30.223130782579336]
我々は,国際計画コンペティションで採用されるドメインの種類に基づいて,ベンチマークスイートを開発する。
LLMを3つのモードで評価する: 自律型, ループ型, ループ型, ループ型, ループ型である。
以上の結果から, LLMが自律的に実行可能な計画を生成する能力は極めて高く, 平均的な成功率は3%程度に過ぎなかった。
論文 参考訳(メタデータ) (2023-02-13T21:37:41Z) - PlanBench: An Extensible Benchmark for Evaluating Large Language Models
on Planning and Reasoning about Change [34.93870615625937]
PlanBenchは、自動計画コミュニティで使用されるドメインの種類に基づいたベンチマークスイートである。
PlanBenchはタスクドメインと特定の計画機能の両方に十分な多様性を提供します。
論文 参考訳(メタデータ) (2022-06-21T16:15:27Z) - Neuro-Symbolic Causal Language Planning with Commonsense Prompting [67.06667162430118]
言語プランニングは、より単純な低レベルステップに分解することで、複雑な高レベルな目標を実装することを目的としている。
以前の手法では、大規模な言語モデルからそのような能力を得るために、手動の例えか注釈付きプログラムが必要である。
本稿では,LLMからの手続き的知識をコモンセンス・インフュージョン・プロンプトにより引き起こすニューロシンボリック因果言語プランナー(CLAP)を提案する。
論文 参考訳(メタデータ) (2022-06-06T22:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。