論文の概要: Cognitive Map for Language Models: Optimal Planning via Verbally Representing the World Model
- arxiv url: http://arxiv.org/abs/2406.15275v1
- Date: Fri, 21 Jun 2024 16:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 13:03:22.948106
- Title: Cognitive Map for Language Models: Optimal Planning via Verbally Representing the World Model
- Title(参考訳): 言語モデルのための認知地図:世界モデルを垂直に表現する最適な計画法
- Authors: Doyoung Kim, Jongwon Lee, Jinho Park, Minjoon Seo,
- Abstract要約: 本稿では,与えられた環境の認知地図を構築可能な言語モデルの最適計画能力について検討する。
実験の結果,認知地図は最適な計画生成能力と到達可能な計画生成能力の両方の性能を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 32.5268320198854
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language models have demonstrated impressive capabilities across various natural language processing tasks, yet they struggle with planning tasks requiring multi-step simulations. Inspired by human cognitive processes, this paper investigates the optimal planning power of language models that can construct a cognitive map of a given environment. Our experiments demonstrate that cognitive map significantly enhances the performance of both optimal and reachable planning generation ability in the Gridworld path planning task. We observe that our method showcases two key characteristics similar to human cognition: \textbf{generalization of its planning ability to extrapolated environments and rapid adaptation with limited training data.} We hope our findings in the Gridworld task provide insights into modeling human cognitive processes in language models, potentially leading to the development of more advanced and robust systems that better resemble human cognition.
- Abstract(参考訳): 言語モデルは、様々な自然言語処理タスクにおいて印象的な能力を示してきたが、多段階シミュレーションを必要とする計画タスクには苦労している。
本稿では,人間の認知過程に触発されて,与えられた環境の認知マップを構築することができる言語モデルの最適計画能力について検討する。
本実験は,Gridworldパス計画タスクにおいて,認知マップが最適かつ到達可能な計画生成能力の両方の性能を著しく向上することを示す。
本稿では,人間の認知に類似した2つの重要な特徴として,環境外挿における計画能力の一般化と,限られたトレーニングデータによる迅速な適応を示す。
言語モデルにおける人間の認知プロセスのモデル化に関する洞察を提供するGridworldタスクにおける私たちの発見が、人間の認知によく似た、より高度で堅牢なシステムの開発につながることを願っています。
関連論文リスト
- ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。
ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。
我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文 参考訳(メタデータ) (2024-08-12T10:15:13Z) - Compositional Generalization with Grounded Language Models [9.96679221246835]
基底言語モデルは、知識グラフのような外部情報ソースを使用して、事前学習に関連する一般的な課題を満たす。
本研究では,構成性の異なる側面を対象とする知識グラフと組み合わせた自然言語質問を生成する手法を開発した。
論文 参考訳(メタデータ) (2024-06-07T14:56:51Z) - Navigation with Large Language Models: Semantic Guesswork as a Heuristic
for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。
言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。
実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-16T06:21:06Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - From Word Models to World Models: Translating from Natural Language to
the Probabilistic Language of Thought [124.40905824051079]
言語インフォームド・シンキングのための計算フレームワークである「構成」を合理的に提案する。
我々は、自然言語から確率論的思考言語への文脈感応的なマッピングとして、言語の意味を定式化する。
LLMは、現実的に適切な言語的意味をキャプチャする文脈依存翻訳を生成することができることを示す。
認知的なモチベーションを持つシンボリックモジュールを統合するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-06-22T05:14:00Z) - See, Plan, Predict: Language-guided Cognitive Planning with Video
Prediction [27.44435424335596]
言語誘導ビデオ予測による認知計画アルゴリズムを考案する。
このネットワークには、未知のオブジェクトに一般化された自然言語入力に基づいて概念を基底化する能力が備わっている。
論文 参考訳(メタデータ) (2022-10-07T21:27:16Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Zero-Shot Compositional Policy Learning via Language Grounding [13.45138913186308]
人間は、言語記述のような世界に関する事前の知識を活用することで、新しいタスクに迅速に適応することができる。
本研究では,環境のダイナミクスを視覚的外観から切り離す新たな研究プラットフォームであるBabyAI++を紹介する。
現在の言語誘導型RL/IL技術は、トレーニング環境に過度に適合し、目に見えない組み合わせに直面すると大きなパフォーマンス低下に悩まされる。
論文 参考訳(メタデータ) (2020-04-15T16:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。