Fugu-MT 論文翻訳(概要): Evaluating Cognitive Maps and Planning in Large Language Models with CogEval

論文の概要: Evaluating Cognitive Maps and Planning in Large Language Models with CogEval

arxiv url: http://arxiv.org/abs/2309.15129v1
Date: Mon, 25 Sep 2023 01:20:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-28 18:29:21.422958
Title: Evaluating Cognitive Maps and Planning in Large Language Models with CogEval
Title（参考訳）: CogEvalを用いた大規模言語モデルにおける認知地図と計画の評価
Authors: Ida Momennejad, Hosein Hasanbeig, Felipe Vieira, Hiteshi Sharma, Robert Osazuwa Ness, Nebojsa Jojic, Hamid Palangi, Jonathan Larson
Abstract要約: 大規模言語モデルにおける認知能力の体系的評価のための認知科学に着想を得たプロトコルであるCogEvalを提案する。我々は、計画を評価するための確立された構成的妥当性とLLMトレーニングセットの欠如の両方を提供する、人間の実験に基づくタスクプロンプトを定めている。 LLMは単純な構造を持ついくつかの計画タスクにおいて明らかな能力を示すが、体系的な評価は計画タスクにおいて顕著な失敗モードを示す。
参考スコア（独自算出の注目度）: 23.935446472870577
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recently an influx of studies claim emergent cognitive abilities in large language models (LLMs). Yet, most rely on anecdotes, overlook contamination of training sets, or lack systematic Evaluation involving multiple tasks, control conditions, multiple iterations, and statistical robustness tests. Here we make two major contributions. First, we propose CogEval, a cognitive science-inspired protocol for the systematic evaluation of cognitive capacities in Large Language Models. The CogEval protocol can be followed for the evaluation of various abilities. Second, here we follow CogEval to systematically evaluate cognitive maps and planning ability across eight LLMs (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, and Alpaca-7B). We base our task prompts on human experiments, which offer both established construct validity for evaluating planning, and are absent from LLM training sets. We find that, while LLMs show apparent competence in a few planning tasks with simpler structures, systematic evaluation reveals striking failure modes in planning tasks, including hallucinations of invalid trajectories and getting trapped in loops. These findings do not support the idea of emergent out-of-the-box planning ability in LLMs. This could be because LLMs do not understand the latent relational structures underlying planning problems, known as cognitive maps, and fail at unrolling goal-directed trajectories based on the underlying structure. Implications for application and future directions are discussed.
Abstract（参考訳）: 近年,大規模言語モデル(llm)における創発的認知能力に関する研究が流入している。しかし、ほとんどは逸話、トレーニングセットの汚染を見落としたり、複数のタスク、制御条件、複数のイテレーション、統計ロバストネステストに関する体系的な評価を欠いている。ここでは2つの大きな貢献をします。まず,大規模言語モデルにおける認知能力の体系的評価のための認知科学に着想を得たプロトコルであるCogEvalを提案する。 CogEvalプロトコルは、様々な能力の評価に従うことができる。第2に,認知地図と計画能力の体系的評価をCogEvalに従って行う(OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, Alpaca-7B)。我々は、計画を評価するための確立された構成的妥当性とLLMトレーニングセットの欠如の両方を提供する、人間の実験に基づくタスクプロンプトを定めている。 LLMは単純な構造を持ついくつかの計画タスクにおいて明らかな能力を示すが、体系的な評価は、不正な軌道の幻覚やループに閉じ込められるなど、計画タスクにおいて顕著な障害モードを示す。これらの発見は、llmにおける創発的な計画能力の考え方を支持していない。 LLMは、認知地図として知られる計画問題の根底にある潜在関係構造を理解しておらず、基礎構造に基づく目標指向軌道の展開に失敗するためかもしれない。応用と今後の方向性について論じる。

関連論文リスト

Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文参考訳（メタデータ） (2025-06-03T09:01:08Z)
Integrating Large Language Models and Reinforcement Learning for Non-Linear Reasoning [0.0]
LLM(Large Language Models)は長期計画に苦慮している。本稿では,強化学習エージェントがLLMの空間探索を案内するアーキテクチャを提案する。我々は、このアーキテクチャをプログラム等価タスクで評価し、思考のチェーン(CoT)と思考のツリー(ToT)と比較する。
論文参考訳（メタデータ） (2024-10-17T12:47:31Z)
VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。 VLMの未調査能力の1つは、視覚空間計画である。本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文参考訳（メタデータ） (2024-07-02T00:24:01Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models [15.874604623294427]
マルチパス計画問題には、アウトライン、情報収集、計画といった複数の相互接続ステージが含まれる。既存の推論アプローチは、この複雑なタスクを効果的に解決するのに苦労しています。本研究は,LLMエージェントのためのヒューマンライクな計画フレームワークを開発することで,この問題に対処することを目的としている。
論文参考訳（メタデータ） (2024-05-28T14:13:32Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Probing Pretrained Language Models with Hierarchy Properties [3.9694958595022376]
本研究では, PLM が複雑な分類学関係をどの程度捉えることができるかを評価することができるタスク非依存評価手法を提案する。提案するプロパティを PLM に注入することで,階層構造に対する理解を深めることができることを示す。
論文参考訳（メタデータ） (2023-12-15T10:31:36Z)
Improving Planning with Large Language Models: A Modular Agentic Architecture [7.63815864256878]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。本稿では,特殊モジュールの反復的相互作用によって計画が達成されるエージェントアーキテクチャ,MAPを提案する。 MAPは両方の標準LLM法よりも大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2023-09-30T00:10:14Z)
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文参考訳（メタデータ） (2023-06-15T16:39:24Z)
On the Planning Abilities of Large Language Models (A Critical Investigation with a Proposed Benchmark) [30.223130782579336]
我々は,国際計画コンペティションで採用されるドメインの種類に基づいて,ベンチマークスイートを開発する。 LLMを3つのモードで評価する: 自律型, ループ型, ループ型, ループ型, ループ型である。以上の結果から, LLMが自律的に実行可能な計画を生成する能力は極めて高く, 平均的な成功率は3%程度に過ぎなかった。
論文参考訳（メタデータ） (2023-02-13T21:37:41Z)
Neuro-Symbolic Causal Language Planning with Commonsense Prompting [67.06667162430118]
言語プランニングは、より単純な低レベルステップに分解することで、複雑な高レベルな目標を実装することを目的としている。以前の手法では、大規模な言語モデルからそのような能力を得るために、手動の例えか注釈付きプログラムが必要である。本稿では,LLMからの手続き的知識をコモンセンス・インフュージョン・プロンプトにより引き起こすニューロシンボリック因果言語プランナー(CLAP)を提案する。
論文参考訳（メタデータ） (2022-06-06T22:09:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。